Google 搜索如何组织信息
当您搜索时,Google 会浏览搜索索引中存储的数千亿个网页和其他内容,以查找有用的信息 - 比世界上所有图书馆都多的信息。
通过爬行查找信息
我们的大部分搜索索引都是通过称为爬虫的软件构建的。它们会自动访问可公开访问的网页并跟踪这些页面上的链接,就像您在网络上浏览内容一样。它们逐页浏览,并将在这些页面上找到的内容以及 Google 搜索索引中其他可公开访问的内容的信息存储起来。
通过索引组织信息
当爬虫找到网页时,我们的系统会呈现该页面的内容,就像浏览器一样。我们记录关键信号(从关键字到网站新鲜度),并在搜索索引中跟踪所有这些信号。
Google 搜索索引包含数千亿个网页,大小远远超过 100,000,000 GB。它就像一本书后面的索引——我们索引的每个网页上看到的每个单词都有一个条目。当我们为网页建立索引时,我们会将其添加到其包含的所有单词的条目中。
不断抓取新信息
由于网络和其他内容不断变化,我们的抓取过程始终保持运行以跟上。他们了解以前看过的内容似乎发生变化的频率,并根据需要重新访问。当指向这些页面或信息的新链接出现时,他们还会发现新内容。
谷歌还提供了一个名为Search Console的免费工具集,创作者可以使用它来帮助我们更好地抓取他们的内容。他们还可以利用站点地图或robots.txt等既定标准来指示内容应该被访问的频率,或者是否根本不应该包含在我们的搜索索引中。
Google 从不接受付费来更频繁地抓取网站 - 我们为所有网站提供相同的工具,以确保为用户提供最佳结果。
不仅仅是网页
我们的搜索索引不仅仅包含网络上的内容,因为可以在其他来源中找到有用的信息。
事实上,我们有不同类型信息的多个索引,这些索引是通过爬行、合作伙伴关系、发送给我们的数据源以及我们自己的事实百科全书(知识图谱)收集的。
这些索引意味着您可以从主要图书馆搜索数百万本书籍,从当地公共交通机构查找旅行时间,或者从世界银行等公共来源查找数据。
结果如何自动生成
由于可用信息数量巨大,如果没有帮助进行整理,找到您需要的信息几乎是不可能的。Google 的排名系统旨在实现这一目标:对搜索索引中的数千亿个网页和其他内容进行排序,以在不到一秒的时间内呈现最相关、最有用的结果。
结果的关键因素
为了向您提供最有用的信息,搜索算法会考虑许多因素和信号,包括您的查询词、页面的相关性和可用性、来源的专业知识以及您的位置和设置。应用于每个因素的权重取决于查询的性质。例如,内容的新鲜度在回答有关当前新闻主题的查询时比在字典定义中发挥更大的作用。
下面详细了解有助于确定查询返回哪些结果的关键因素:
您的查询的含义
要返回相关结果,我们首先需要确定您要查找的内容 — 查询背后的意图。为此,我们构建了语言模型,尝试解读您在搜索框中输入的相对较少的单词如何与最有用的可用内容相匹配。
这涉及看似简单的步骤,例如识别和纠正拼写错误,并扩展到尝试我们复杂的同义词系统,该系统使我们能够找到相关文档,即使它们不包含您所使用的确切单词。例如,您可能搜索过“更改笔记本电脑亮度”,但制造商写了“调整笔记本电脑亮度”。我们的系统理解这些词和意图是相关的,因此可以为您提供正确的内容。该系统花了五年多的时间来开发和超过 30% 的跨语言搜索结果得到显着改善。
我们的系统还会尝试了解您正在寻找什么类型的信息。如果您在查询中使用了“烹饪”或“图片”等词语,我们的系统会发现显示食谱或图像可能最符合您的意图。如果您用法语搜索,则显示的大多数结果都将以该语言显示,这可能是您想要的。我们的系统还可以识别许多具有本地意图的查询,因此当您搜索“披萨”时,您会得到有关附近提供送货服务的企业的结果。
如果您搜索热门关键词,我们的系统会了解最新信息可能比旧页面更有用。这意味着当您搜索体育赛事比分、公司收益或任何相关的特别新内容时,您将看到最新信息。
内容的相关性
接下来,我们的系统分析内容以评估它是否包含可能与您正在查找的内容相关的信息。
信息相关的最基本信号是内容包含与您的搜索查询相同的关键字。例如,对于网页,如果这些关键字出现在页面上,或者出现在文本的标题或正文中,则信息可能更相关。
除了查看关键字之外,我们的系统还会以其他方式分析内容是否与查询相关。我们还使用聚合和匿名交互数据来评估搜索结果是否与查询相关。我们将这些数据转化为信号,帮助我们的机器学习系统更好地估计相关性。试想一下:当您搜索“狗”时,您可能不希望页面上出现数百次“狗”一词。考虑到这一点,算法会评估页面是否包含关键词“狗”之外的其他相关内容,例如狗的图片、视频,甚至品种列表。
值得注意的是,虽然我们的系统确实会寻找此类可量化信号来评估相关性,但它们并非旨在分析主观概念,例如页面内容的观点或政治倾向。
内容质量
在识别相关内容后,我们的系统旨在优先考虑那些看起来最有帮助的内容。为此,他们识别出有助于确定哪些内容表现出专业知识、权威性和可信度的信号。
例如,我们用来帮助确定这一点的几个因素之一是了解其他著名网站是否链接或引用了该内容。这通常被证明是一个良好的迹象,表明该信息是值得信赖的。我们的搜索质量评估流程的汇总反馈用于进一步完善我们的系统识别信息质量的方式。
网络上的内容和更广泛的信息生态系统不断变化,我们不断衡量和评估我们系统的质量,以确保我们在信息相关性和权威性之间实现适当的平衡,以维持您对所看到结果的信任。
网页的可用性
我们的系统还考虑内容的可用性。当所有事情都相对平等时,人们发现更容易访问的内容可能会表现得更好。
例如,我们的系统会考虑页面体验方面,例如内容是否适合移动设备,以便移动设备上的用户可以轻松查看它。同样,他们会查看内容加载是否快速,这对移动用户也很重要。
背景和设置
您的位置、过去的搜索历史记录和搜索设置等信息都有助于我们确保您的结果是当时对您最有用和最相关的结果。
我们使用您所在的国家/地区和位置来提供与您所在地区相关的内容。例如,如果您在芝加哥并且搜索“足球”,Google 很可能会首先向您显示有关美式橄榄球和芝加哥熊队的结果。然而,如果您在伦敦搜索“足球”,谷歌将显示有关足球和英超联赛的结果。搜索设置也是您可能会发现哪些结果有用的重要指标,例如您是否设置了首选语言或选择了安全搜索(一种有助于过滤掉明确结果的工具)。
搜索还包括一些根据您的 Google 帐户中的活动来个性化结果的功能。例如,如果您搜索“我附近的活动”,Google 可能会根据我们认为您可能感兴趣的活动类别定制一些推荐。
这些系统旨在满足您的兴趣,但并非旨在推断您的种族、宗教或政党等敏感特征。
您可以控制使用哪些搜索活动来改善您的搜索体验,包括调整保存到您的 Google 帐户(位于myaccount.google.com)的数据。要根据帐户中的活动禁用搜索个性化,请关闭“网络和应用程序活动”。
您还可以在设置中找到安全搜索等内容首选项。这些可以帮助您选择搜索结果是否包含可能令某些用户感到震惊的图形内容。