用Robots协议引导蜘蛛对页面进行抓取_深圳网站优化-深圳百度关键词优化排名-SEO网络推广-海洋网络

Robots协议是放在根目录下的一个协议，也是蜘蛛爬行网站的时候需要访问的第一个文件，通过解读Robots文件的策略，蜘蛛可以知道哪些页面可以爬行，哪些不可以爬行。一般来说，网站都是可以开发给蜘蛛来抓取的，某些不允许抓取的页面或者频道，只需要在Robots里面设定Disallow (禁止抓取的命令)就可以。但是在实际运营中，可能面临更复杂的情况，比如整站已经在HTTPS下，但是部分页面需要蜘蛛爬行，怎么办?有以下几个解决办法。

(1)复制一份到HTTP下。

(2)使用user-agent判断来访者，将蜘蛛引导到HTTP页面。

关于Robots文件，详细说明如下。

(1)特定页面已经不需要蜘蛛抓取，可以进行Disallow。

(2)某类集中的页面具有共同的URL参数，可以实现批量禁止抓取功能。在操作批量禁止的时候，需要避免误伤，即具有同样URL特征的功能可能并不在禁止的目的之内，无意中被禁止了。

关于同类特征的URL的一个特殊应用就是批量禁止动态URL的抓取。比如一个动态发布内容的网站，初始页面都是动态页面，从SEO角度考虑，这些动态页面全部批量生成了对应的静态页面，如下。

  http://www.abc.com/?id=1

  http://www.abc.com/?id=2

  ......

  (已经批量生成了如下)

  http://www.abc.com/ 1.html

http://www.abc.com/2.html

......

如果同时被蜘蛛抓取了动态页面和对应的静态页面，那么网站就存在大量的重复页面，对SEO是不好的。可以通过Robots功能，统一禁止动态URL的抓取，比如在Robots文件里写如下内容。

Disallow : /*?*

在抓取方面，蜘蛛会依据实际情况调整对网站的抓取频次，即分配抓取定额，每天定量抓取网站内容，“定量”这个词意味着是有限的，-一个大门]户网站如果一次性提交10万条URL，并不意味着蜘蛛会很快把10万条数据抓取回去，因此，必须有耐心跟踪搜索蜘蛛在网站每天的爬行和收录情况。网站式行业动态

本文地址：http://www.haiyang8.cn/article/7777.html

分享到：QQ空间新浪微博腾讯微博人人网微信开心网百度贴吧豆瓣网

深圳SEO

用Robots协议引导蜘蛛对页面进行抓取