现在的位置:首页>网站SEO>正文

Robots爬虫协议正确写法和动态路径屏蔽等相关问题的处理

2016年11月30日 ⁄ 共 1238字 暂无评论

部落之前介绍过很多篇关于Robots.txt的文章,估计写完这一篇,以后如果爬虫协议的规则,搜索引擎不作变更的话,部落也不会再发布这一方面的了,这一篇的话,当是对Robots爬虫协议的一个总结吧,主要是一些正确写法的说明,另外,还有一些动态路径屏蔽等相关问题的处理过程,相信对于大多数站长朋友来说,还是有作用的。

Robots简单来说就是搜索引擎和我们网站之间的一个协议,用于定义搜索引擎抓取和禁止的协议。robots基本语法符号:/ 、* 、$

/ 在允许和禁止的文件和文件夹前写; * 通配符,能够匹配所有的英文字符包括数字0; $ 表示结束符,用于屏蔽图片时候用。

Robots.txt正确写法注意事项

1.要顶格写,不要前面空几格。

Robots爬虫协议正确写法和动态路径屏蔽等相关问题的处理

2.要在英文输入法下写语句。因为中文下的冒号和英文冒号不一样。

Robots爬虫协议正确写法和动态路径屏蔽等相关问题的处理

这里部落补充一下,建议使用Notepad++这一类的文本工具来编写,不建议使用系统自带的记事本来编辑。

3.开头顶格要大些。如:User-agent,Baiduspider

Robots爬虫协议正确写法和动态路径屏蔽等相关问题的处理

4.冒号后要空一格。User-agent: /Baiduspider

Robots爬虫协议正确写法和动态路径屏蔽等相关问题的处理

实操Robots写法

在写robots协议时,首先先要定义什么样的蜘蛛,如:User-agent: Baiduspider 指的就是定义百度蜘蛛,除了百度蜘蛛外还包括谷歌机器人、搜狗蜘蛛等等。

其次在下一行写上允许和禁止的语句,如:

如何屏蔽整站:Disallow: / 指的就是屏蔽整个网站(/单个符号搜索引擎认为是根目录);

如何屏蔽具体路径:Disallow: /www.mfbuluo.com/192.html 指的是屏蔽具体某一个路径;

如何屏蔽文件和文件夹:Disallow: /uploads 指的是屏蔽uploads开头的文件和文件夹;

如何屏蔽文件夹:Disallow: /uploads/ 指的是只屏蔽uploads文件夹;

如何屏蔽动态路径:例如:www.mfbuluo.com/192.html?host=bbs.moonseo.cn为动态路径,问号前www.mfbuluo.com/speedtest.aspx可以用通配符*代替,接着一个问号,然后问号后host=mfbuluo.com也可以用一个通配符*代替,所以其语句可以这样写:Disallow: /*?*

如何屏蔽图片:Disallow: /*.jpg$ 如果单纯的写Disallow: /*.jpg是屏蔽不了图片的,所以要在图片后面写上结束符$,指的是屏蔽所以jpg格式的图片;

那么相应的Allow语句写法也是如上所说。

 

 

小结

文章部分内容来源自网络,由免费部落整理发布。

这里面的内容,其实也主要是对于新手站长来说,老站长的话,估计都已经配置好自己的robots.txt文件了。

给我留言