什么是搜索引擎？基础原理全景介绍及产品应用场景

主导做过一款金融垂直搜索引擎的产品，对搜索有一些简单的了解。因此后面会尝试分享几篇搜索推荐相关的算法，本篇以搜索的基础原理切入，简单聊聊搜索的基础内容，适合小白入门。

01什么是搜索引擎

是的，提到搜索引擎，我想大家应该都能想到【百度】、【谷歌】，他们都是搜索引擎。

例如上图，左侧呈现的内容便是搜索结果list。

其实，还有一种搜索引擎，虽然大家也一直在用，但真的关注过嘛？例如像京东的商品搜索：

因此，总结下来，搜索引擎主要包括两类：一类是类似百度、Google这种的专门的搜索引擎，搜索即公司的主要业务；另一类是作为网站内部的一个功能模块，用于服务主流业务的。

目前专职做搜索引擎的公司，其实也不是很多了，国内主要就是百度、搜狗搜索、360搜索这些，行业的集中度已经很高了。（下图仅供参考）

但网站内部的搜索功能，基本每家公司都在做，大家但凡使用的成熟一点的互联网APP或者网站，都会提供搜索服务，搜索已经成为信息检索的主流手段了。不信大家打开手机的美团、知乎、腾讯视频等等，首页核心位置都会提供搜索入口。

专业的搜索引擎和站内搜索功能，异同点有哪些呢？

差异点：主要是两者的检索目标内容是有差别的。专业搜索引擎更加综合，目标是满足用户对于信息（尤其是文本信息）的检索诉求；站内搜索主要的检索对象基本就是网站的服务内容。视频网站搜索的就是视频，外卖网站搜索的就是店铺，电商网站搜索的就是商品等。由于检索的内容、不同网站的业务目标都有差别，因此各个网站内部的搜索逻辑肯定也是千差万别。
相同点：就是都是搜索引擎。核心的技术及大的框架都是基本一致的。

02搜索服务的核心过程

下面我们聊聊一个搜索服务的核心流程都有哪些。

（1）数据的获取处理

对于专门的搜索引擎来讲，数据及信息的获取主要指的是爬虫的操作。即下图的sp左侧部分。

各位朋友有没有想过，百度可以实时返回你查询的关键词或者句子，是怎么做到的呢？比如你百度搜索【数据科学】，是实时去全网上全找一圈吗？当然不是。哪怕计算资源再多、计算效率再快，也不可能在短时间内告诉你靠谱的结果。

因此，为了解决效率的问题，所有的搜索引擎都是提前将各类网站的数据爬下来，进行处理加工，等待用户的查询操作。

这里需要做的数据处理加工工作其实是非常多的，比如需要对网页的重复内容进行去重，比如需要对所有的网页进行文本解析、语义识别，比如需要对文本进行索引的建立以便于后续的关键词检索等等。这里就不展开了，后面我们有机会逐一分享。

而对于网站内部的搜索功能模块来讲，数据的获取其实是比较容易的，不需要爬取，都是自己公司数据库中现成的数据。我们以电商网站的搜索举例，要搜索的都是商品，因此主要针对商品数据进行处理就好。而商品的数据肯定有商品表，基础信息已经很丰富了，足够满足搜索的基础应用。相对专业搜索引擎而言，数据处理的难度是小了很多。

（2）搜索query解析

无论用户是否进行搜索，上面的第一个环节都是需要做的基础工作。当用户进行搜索操作时，需要进行的处理的是本环节：query解析。

所谓的query解析，就是理解和分析用户输入的搜索语句（query），到底是个啥意思。

比如输入【数据科学家的主要工作内容是啥】，搜索引擎只是冷冰冰的机器，它是不理解这句话是啥含义的，那它怎么能给你靠谱的答案呢？

其实很多朋友也能想到，直接基于关键词进行匹配呗~是的，大的逻辑没毛病，但是真正落地就会发现，有很多细节问题。

比如，关键词匹配，那首先我得知道【数据科学家的主要工作内容是啥】有哪些关键词对不？这就得进行分词了。所谓的分词，就是对query进行切分为符合常识的关键词，这是典型的NLP（自然语言处理）中的知识内容。比如上面切分成【数据】【科学】【家的】【主要】……还是【数据】【科学家】 ……这是完全不一样的。

再比如下面的【研究生物学】的切分，更是五花八门了。分词相关的NLP算法，后面详细分享，这里只是抛个砖。

再比如，【数据科学家的主要工作内容是啥】这句话，其中有【的】、【是啥】这种词，如果进行关键词匹配是不是会有影响？毕竟这种语气词既没有啥重要性，在网页中出现的频率又高。这里就涉及了核心关键词的提取、权重判断等。

再比如下面这个搜索【我和我的爷辈】，可能是我输入错了，但是query猜出我可能搜的是【我和我的父辈】，进行了纠正，如果一根筋的搜索，是不可能出来这个结果的。

综上，在query解析这个环节，主要需要搞定的是用户输入的语句，如何对语句进行处理，使得机器能够理解语句的含义，便于后续高效地搜索到相关的结果。

当然，基于关键词是比较基础的了，现在更多地朝着知识图谱、问答的方向迈进，更加符合真正的搜索需求。

（3）内容检索召回排序

上面两个环节，一个环节是从服务端出发，进行数据的处理加工；一个环节是从用户端出发，进行用户搜索语句的理解。

下面就到了第三个重要环节：基于处理后的用户的搜索内容，到处理完的库中检索结果，把相关的内容都找出来，并按照一定的规则进行排序。

这个内容是搜索引擎的核心内容。因此不同的公司、不同网站的搜索引擎逻辑都会差别比较大，而排序逻辑更是千差万别。

需要排序这个事情应该比较好理解，理论上，我们是给匹配到检索内容的结果进行打分，分值高的排在前面。用户肯定是想要看到最相关、或者我们想让用户看到最重要的内容在前面，越往后用户看到的几率越小。

因此，针对如何提升排序这个事情，就诞生了一个专门的行业、职位：SEO优化（Search Engine Optimization），即提升相关内容的网站排名。对于淘宝卖家而言，需要提升自己家商品在淘宝天猫的搜索排名，会进行各种关键词、指标的优化；网站为了提升自己的百度搜索排名，也会进行各种标题等优化。