如下图,这个是简单的搜索引擎原理图,第一步是抓取,第二个是过滤,第三个是建立索引,第四个是输出结果,这样一来看,搜索引擎的工作原理就比较简单了,但是我们知道了这四个步骤,没用,要知道每个步骤都是做什么的,能够给我们提供什么样的帮助,优化中遇到的问题,可以结合搜索引擎的工作原理来进行诊断网站,弄懂了这个工作原理,你就会明白为什么不收录,为什么,没有排名了,排名怎么样才会有,所以这个很重要。
首先来看搜索引擎原理的第一个步骤----抓取
在互联网上,有一种自动抓取的程序,可以发现,并抓取互联网上的内容,这个程序叫做spider,中文名字叫蜘蛛,不同的搜索引擎公司起的名字也不同,百度叫Baiduspider,谷歌的叫googlebot,360的叫360spider。
抓取都是以亿万为单位的,就是很多的意思,这里不要钻牛角尖,每天的工作就是不断的发现内容,并把内容带回去,把内容存到临时的数据。
当网站产生新内容时,Baiduspider会通过互联网中某个指向该页面的链接进行访问和抓取,怎么来理解呢?比如,刚刚做一个新的网站,这个时候,我们不做任务处理,那么时间长了,我们也能够发现网站会收录,但是这个时间会比较长的,这个就是自动抓取。还有就是找一些高质量的平台,去发一些外链,当外链被收录时,里面有指向我们网站的链接,这个时候蜘蛛就能够寻着链接到达我们的网站了,我们也把这种方式叫做被动的引蜘蛛。
还有一种就是主动的提交,如果您没有设置任何外部链接指向网站中的新增内容,则Baiduspider是无法对其进行抓取的。这个时候,我们可以使用百度站长平台的提交功能,新产生内容时,可以使用API提交,手动提交,老网站使用sitemap地图提交。
这里需要说明的是API提交,以前叫实时提交,后来才改成API提交,速度上来讲是很快的,只有提交了,很段的时间内,就会派蜘蛛来你的网站,这里要注意的是,蜘蛛来你的网站差不意味着你的网站会抓取,会收录,也可能只是蜘蛛来了,但是他内容没有抓住,没有收录,这个我们在后面还是重点说明为什么。
想要使用API提交提交,需要根据官方提供的开发文档进行开发相关的工具,工发这个工具得懂编程了。
对于已被抓取过的内容,搜索引擎会对抓取的页面进行记录,并依据这些页面对用户的重要程度安排不同频次的抓取更新工作。
抓取很重要,那么首先需要的是蜘蛛能够到过我们的网站,这里需要前明几点。
第一个,就是服务器,是否有问题,网站能不能正常打得开网站,别购买垃圾的网站,平台打开就很快,有的时间自己打开没事,蜘蛛一来就不行了,提示403,404。
第二个,就是robots禁封
有很多人的网站刚开始时,想要不让收录,就晋封了蜘蛛抓取,想要抓取了,就放开,缺发现蜘蛛就是不来,网站几个月了,就是不收录,这是因为robots这个不授控制,有生效周期,几个月不等的,很坑。
第三个,就是网站有权限,需要登录才能够看到内容,就像下图一样,
说明:由于百度的蜘蛛是一个普通的用户,它不会去做复杂的工作,不会注册,所以网站还想要正常抓取就很难了,希望大家能够明白
第四,有一些抓取软件,为了各种目的,会伪装成Baiduspider对您的网站进行抓取,这可能是不受控制的抓取行为,严重时会影响到网站的正常运作。
以上抓取我就讲这么多了,有不懂的欢迎来套讨论,下面讲过滤。
搜索引擎原理的第二个步骤---过滤
很多人的网站,还没有达到收录的标准就被过滤掉了,所以我们可以查看一下日志,看一下,蜘蛛有没有来到我们的网站,抓取了哪一些页面,如果还没有抓取,那就要先让其进行抓取,如果抓取了,那就看是否因为质量不行被过滤了。
互联上有很多内容,他抓取过来的内容也会进行筛选,如垃圾页面,空间无面,无内容页面,死连接,明显的欺骗用户的网页,这些本为就没有用,我还去存取,那就会消耗我的地方,消耗磁盘,流量,所以这个程序他会自动判断,讲到这里,让你来,或者找人来做这件事情,是否我们自己也可以做到?
第二点,就是他抓取来的内容,会和自己原来存取的内容进行比对,发现是重复的内容,他有可能也不会收录,如下图,及时网站的内容刚开始会收录,但慢慢的,你还是提供一些垃圾的内容,那慢慢的网站就会变成一个垃圾站点了,慢慢就不会收录了,排名也不可能好,这是一个知识点请记住。
互联网中并非所有的网页都对用户有意义,因此百度会自动对这些内容进行过滤,那么你的网站。
搜索引擎原理的第三个步骤--建立索引
当很多人问我,为什么我的网站还没有收录,那就要看网站的内容有没有达到收录的标准了,要质量是高质量的,有的人根本就不知道什么是高质量的内容,每天就是为了更新而更新,天天伪原创,他都不知道为什么要更新内容,要更新什么样的内容,很可怕,所以内容要图文结合,能够解决用户的问题,可以传播,别人会收藏,用户看了会喜欢,能够从头看到尾,下找遇到相同的内容,他还会在来你的网站。
页面被Baiduspider发现、分析过,没有存过这个内容,有价值,质量高,那就会收录了,你可以使用site:域名,看下这个网站下有多少内容有收录,也可以直接百度中搜索某一个地址,看下这个链接有没有收录。
这个是有收录的。
这个是没有收录的。
百度会对抓取回来的内容会逐一进行标记和识别,并将这些标记进行储存为结构化的数据,比如网页的tagtitle、metadescripiton、网页外链及描述、抓取记录。同时,也会将网页中的关键词信息进行识别和储存,以便与用户搜索的内容进行匹配。
这里需要说明一点的是,为什么我们老是说收录,没有说建立索引呢?那是因为先收录,在建立索引,所以,有的时候我们会说,抓取,过滤,收录,输入结果。
百度官方的解释索引是:Baiduspider经初步分析后认为有意义,做建库处理,而收录是:页面被Baiduspider发现、分析过,这里来看,想在能够排名,只收录是没用的,还需要建立索引,收录的要有意义,有价值,下面上一张官方图,大家就可以一目了然了。
收录是包含索引的,所以你要是做的好的话,就有可能是收录等于索引,也就是你的内容所有的都进入到索引里面。
给大家看下个网站,先看site数据。
下面是索引,那为什么,今天的索引是25个,而site是24个呢?欢迎大家在下面讨论,先说明,网站差没有被黑过,如果你懂得这个知识,可以告诉你,利用这个知识,可以做更多关键词排名和收录。
搜索引擎原理的第四个步骤--输出结果
有的时候,我们也会把输出结果,说成是排序,排名,所以你在那里看到别人说成这个,你也不用说不对,都是可以的,一个意思,因为这个没有绝对的。
用户输入的关键词,谁会排在前面,谁会排在后面, 百度会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列,展现给用户。
下面在上一个有难度一点的搜索引擎抓取图,现在大家应改可以看懂了。
本节知识就写到这里了,小知识点很多,每个人都要总得这个搜索引擎的工作原理的,还且还要学会去运用,自己优化网站的时候,可以解决很多问题,怎么引蜘蛛,蜘蛛有没有来,网站为什么没有收录,网站为什么没有排名,是内容质量不高,还是蜘蛛没有来,还是被过滤掉了。