深圳SEO

用Robots协议引导蜘蛛对页面进行抓取

        Robots协议是放在根目录下的一个协议,也是蜘蛛爬行网站的时候需要访问的第一个文件,通过解读Robots文件的策略,蜘蛛可以知道哪些页面可以爬行,哪些不可以爬行。一般来说,网站都是可以开发给蜘蛛来抓取的,某些不允许抓取的页面或者频道,只需要在Robots里面设定Disallow (禁止抓取的命令)就可以。但是在实际运营中,可能面临更复杂的情况,比如整站已经在HTTPS下,但是部分页面需要蜘蛛爬行,怎么办?有以下几个解决办法。
 

 
        (1)复制一份到HTTP下。
 
        (2)使用user-agent判断来访者,将蜘蛛引导到HTTP页面。

        关于Robots文件,详细说明如下。
 
        (1)特定页面已经不需要蜘蛛抓取,可以进行Disallow。
 
        (2)某类集中的页面具有共同的URL参数,可以实现批量禁止抓取功能。在操作批量禁止的时候,需要避免误伤,即具有同样URL特征的功能可能并不在禁止的目的之内,无意中被禁止了。
 
         关于同类特征的URL的一个特殊应用就是批量禁止动态URL的抓取。比如一个动态发布内容的网站,初始页面都是动态页面,从SEO角度考虑,这些动态页面全部批量生成了对应的静态页面,如下。

        http://www.abc.com/?id=1

        http://www.abc.com/?id=2

        ......

        (已经批量生成了如下)

        http://www.abc.com/ 1.html
 
        http://www.abc.com/2.html
         ......
 
        如果同时被蜘蛛抓取了动态页面和对应的静态页面,那么网站就存在大量的重复页面,对SEO是不好的。可以通过Robots功能,统一禁止动态URL的抓取,比如在Robots文件里写如下内容。
 
        Disallow : /*?*
 


 
        在抓取方面,蜘蛛会依据实际情况调整对网站的抓取频次,即分配抓取定额,每天定量抓取网站内容,“定量”这个词意味着是有限的,-一个大门]户网站如果一次性提交10万条URL,并不意味着蜘蛛会很快把10万条数据抓取回去,因此,必须有耐心跟踪搜索蜘蛛在网站每天的爬行和收录情况。网站式行业动态
 
本文地址:http://www.haiyang8.cn/article/7777.html