作为网站的一种基础文件,站点地图起到了引导Google快速、准确理解、抓取网站的作用,所以还是建议各位能够及时的为自己的网站做好配置。
虽然理论上说目前的Google已经能够主动的发现并抓取网站,但是对营销性网站来说,单纯依靠Google主动还是远远不够的,所以这篇文章会针对站点地图这个话题做相对系统的讨论,希望对各位有所借鉴。
一、关于站点地图的必要性讨论
理论上建议每个网站都配置,不过按照实际情况可以在形式、复杂程度上做调整。参照Google的官方说法。
理了一下几种一定需要配置站点地图的情况:
- 网站规模很大:当你的网站体量变得十分庞大的时候,意味着网站会包含数百个甚至成千上万的页面,虽然页面之间会有超链接相连,但是Google依赖链接去发现新内容的难度还是比较大的。况且还需要考虑到Google Bot对网站的“耐心”,如果Google蜘蛛在你的网站里总是兜兜绕绕才能找到新内容,那大可能之下会影响其后续对你网站的抓取频率。
- 网站内/外链接不足:内链接不足的意思是网站内包含大量专业页面或者内容归档页面,这些页面和其他页面之间并没有足够的链接,那意味着Google很难发现。外链接不足一半是指的新站,互联网上没有或者很少有其他网站指向,同样会造成Google很难发现你的网站或者很难完整的遍历网站抓取。
- 网站内容形式问题:很多网站因为照顾视觉效果或者本身行业特殊,造成站内存在大量的富媒体内容,这些东西没有站点地图的指引,Google同样很难发现。
二、站点地图的创建
目前被主流搜索引擎支持的站点地图格式主要是有几种,xml、pss、文本(txt)等形式,也有其他形式,比如Atom1.0等等,不过建议还是用最常见的xml或者TXT形式,站点地图的原则是高通用性和易用性,没有标新立异的必要。
1、XML形式
是最推荐的站点地图形式,几乎所有搜索引擎通用且使用和维护都高效,被建站程序兼容的程度也最高。
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="www.sitemaps.org - /schemas/sitemap/0.9/">
<url>
<loc>Example Domain</loc>
<lastmod>2018-06-04</lastmod>
</url>
</urlset>
上面就是特别典型且标准的XML站点地图形式,现在站点地图一般不用SEO人员自己去弄,建站程序普遍支持生成和实时更新,做好相关配置即可。
2、文本(TXT)形式
可以用,是退而求其次的站点地图形式,其他没有很多要说的,注意几个地方。
一定是用UFT-8编码,不然没法识别;
不要在里面写出了网址之外的任何东西;
虽然理论上这个文件你叫什么都无所谓,但是建议老老实实的命名为sitemap.txt;
三、站点地图的提交
目前几乎所有的搜索引擎都支持主动提交站点地图文件,入口和方法大同小异,所以就以Google为例,其他搜索引擎操作不明白的可以单独找我。
1、Google Console,帮助中心,可以直接提交;
2、可以使用ping工具,直接在浏览器输入命令发送GET请求即可,格式如下:
3、利用robots文件提交,在robots文件中可以表明站点地图的所在位置,Google也是可以抓取到的。
Sitemap: https://example.com/my_sitemap.xml,使用的时候把“;”后面的网址换成你站点地图的链接即可。
四、站点地图的拆分问题(适用于站点过大导致的站点地图文件过大)
如果因为站点过大导致站点地图超过了50MB就建议做拆分了,不管是Google还是国内的百度,对过大的站点地图支持度都不高。
不过Google和百度对这个问题的看法不太一样,对Google来说比较建议使用站点地图索引文件的形式提交多个站点地图。
简单理解就是为多个站点地图创建一个“站点地图”,让Google通过站点地图索引去抓取不同的站点地图,从而抓取具体的网页链接。
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="www.sitemaps.org - /schemas/sitemap/0.9/">
<sitemap>
<loc>http://www.example.com/sitemap1.xml.gz</loc>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap2.xml.gz</loc>
</sitemap>
</sitemapindex>
如上,是一个标准的站点地图索引格式,具体参照上面做修改即可。
解释一下里面几个标签的含义:
- Sitemapindex:可以理解为是站点地图索引开始和结束的标签;
- Sitemap:里面标注不同的站点地图;
- Loc:站点地图的具体链接;
作为站点地图索引,同样大小不能超过50MB,并且里面包含的网址数量不能超过5万个,不过这个一般也不用担心,一般的企业级网站站点地图索引包含的网站不会超过这个数字的。
五、关于站点地图的延伸和注意事项
针对一些和百度不同或者容易造成误解的事情单独说一下,有的东西不是一定要这么做,但是还是那句话,站点地图的原则是通用和易用,请遵守相关规则老老实实做,确保没错就是对。
1、建议使用绝对路径而不是相对路径,这点和百度不一样;
2、一个站点地图只支持一个形式的规范网址,比如你的网站同时带www和不带www两个都可以访问,那么站点地图只能包含其中的一种网址,即使打开后页面内容一样,也不能放两种网址;
3、站点地图的目的是告诉Google怎么更高效的抓取你的网站,但不意味着Google就一定要把你放在站点地图的网址都抓取并收录,两码事;
4、原则上某一条网址在站点地图中的位置、顺序并不重要,Google也不会因为这个对某一条网址差别对待;
好了,对站点地图梳理下来基本就这么多,对绝大多数的企业网站来说,按照上面一条条做好就足够保证不出错了。
作者:dora