1.经常使用到Robots.txt 文件的情况
● 网站升级,老版本网站的很多页面在新版本网站中去掉了,在这种情况下,可以通过Robots文件 告诉蜘蛛不再抓取这些已经被去掉的页面。
● 网站存在很多重复的内容,比如一个网站同时存在动态页面和已经经过静态化处理的页面,这些页面在内容上都是完全重复的内容,为了解决重复的问题,可以在Robots文件中禁止蜘蛛抓取动态页面。
● 网站内部有些内容不便于公开发布,但是需要允许内部查阅。遇到这种情况,可以在Robots中告诉蜘蛛不要抓取。

2. Robots文件的基本写法
User-agent : *
Allow : /cgi-bin/see
Allow : /tmp/hi
Allow : /~joe/look
Disallow : /cgi-bin/
Disallow : /tmp/
Disallow : /~joe/
Allow是允许蜘蛛爬行的页面,而Disallow后面则是不允许蜘蛛访问的路径和文件。
3. Robots的使用示例
(1)仅允许访问某目录下某个后级的文件。这里仅允许访问带“'s" 符号的网址,如下。
User-agent: *
Allow : .asp$
Disallow : /

(2)禁止索引网站中所有的动态页面。
这里是限制访问带“? ”的网址,例如,index.asp?id=1。
User- agent : *
Disallow : /*?*
(3)使用“*”限制访问带某 个后缀的域名。
这里是禁止访问admin目录下所有htm文件,如下。
User- agent :*
Disallow :/admin/* .htm网站式新闻动态
本文地址:http://www.haiyang8.cn/article/8156.html