先来拆解爬虫的“抓”、“取”二字,这两个字代表了两个动作,抓可以理解为爬虫在互联网上找寻更多的网址信息,而取可以理解为是爬虫对抓到的网址进行访问取数据。从而形成抓取。那么爬虫的机制本身就是在不断的发现网页,读取网页的过程。链接提交的本质就是让爬虫省去了发现网页这个环节。从而不仅能提升爬虫的工作效率,也能提升爬虫取我们网页数据的效率。
下面以百度为例,分享目前较为常见的3种链接提交方式:
1、sitemap.xml文件百度收录提交工具
sitemap.xml文件的提交方式是比较传统的链接提交方式至今已经有十几年的历史了,这点不单单是百度支持,其他搜索引擎也都支持。
2、自动推送百度收录提交工具
自动推送,是在你网站中,添加一个段代码,这段代码百度搜索资源平台已经给出,就像给你的网站添加统计代码一样简单。如下图是我的百度自动推送的收录提交代码。
你将上述代码全站希望被百度收录的网页源代码中即可。
自动推送的推送逻辑是每当你网站中加了这个代码的网页被访问时,这个网页就会推送给百度,然后爬虫来抓取收录。
3、主动推送百度收录提交方式
主动推送,是你通过技术能力实现将文章主动的提交给百度。说白了你可以理解为是把手动提交这个功能自动化了。
百度搜索资源平台给出了代码实现的参考示例,如下图:
如上图,可以看出不同程序语言的实现示例,以及提交成功会返回什么等等。
自动提交百度收录的区别是什么?
上面提到的3个自动提交百度收录的入口都有哪些区别,我们一定要都设置吗?
首先是一定要都进行设置的。具体区别如下:
sitemap文件提交百度收录
这个文件里有你所有的url文件,百度每次访问会全部检索。例如你的一个网页,没有收录,自然没有人访问,那么自动推送不生效,手动提交你也忘了。主动推送可能早就提交过没被收录。这时候,爬虫访问你的sitemap文件时,就会将这些没被收录的历史网址重新抓取,就会获得收录的机会。
另外,像360、搜狗、bing、google等都支持这种方式,等于做了一个sitemap就提交给很多搜索引擎网址,等待收录了。
自动推送提交百度收录
自动推送的方式,和sitemap一样,只不过是针对更加热门的网页,搜索引擎的来源访客不访问你的网页,不代表直接访问或其他来源的人不访问呀,更何况你自己还会访问呢不是?
有时候,我们自己也会忽略哪些内容是受欢迎的,不重点优化。但访客骗不了我们。大多数人频繁访问的网页一定是受欢迎的。通过自动推送的方式给百度收录提交入口,让百度蜘蛛抓取。也很不错的。
主动推送提交方式
主动推送的方式,其主要针对的还是我们的文章页/详情页,毕竟这类页面第一时间产生后,我通过自动推送就给了百度,不仅能保证实时性,还可以在有大型网站采集我网站时,提过提交网址的时间,来证明我的是原创的。
所以如上的三种方式都各有千秋,但话说回来,能多一次把网址提交给百度收录的机会,我们为什么不珍惜呢?收录了的在提交一次也无所谓,没有收录的多提交几次,不也是增加收录的机会吗?
如上就是我们解决网站收录的核心方法。本文内可能说的不全,但整体上我们要从三点出发:网页的速度、网页的综合质量、以及像链接提交这种辅助搜索引擎的东西。