现在的位置:首页>网站SEO>正文

robots.txt文件的配置误区及在线检测robots.txt文件的有效性

2013年08月30日 ⁄ 共 1497字 评论 4 条

robots.txt文件是每一个网站的必备文件,规划好了您网站的robots.txt文件,能对您的网站优化起到很大的作用.因为每个搜索引擎抓取网站信息第一步就是爬去robots.txt,然后根据该文件的指示再去抓取其它的页面,特别是当您的网站在搜索引擎的收录中出现一些无关紧要的页面或者是重复页面时,我们就能通过配置robots.txt文件来进行调节.

来看看今天的重点:

一.robots.txt文件的配置误区

1.robots.txt文件应该位于网站的根目录下,有些站长朋友可能还不知道,以为随便放在服务器的哪个位置都可以,通常情况下,我们在浏览器中输入自已的域名加robots.txt应该是可以打开的,例如部落的地址是:http://www.mfbuluo.com/robots.txt

2.顺序性

无规矩不成方圆,robots.txt也有自已的书写顺序,搜索引擎会根据第一个匹配成功的Allow与Disallow来确定首先访问那个url地址.如果您输入以下内容:

User-agent: *
Allow: /
Disallow: /wp-
则后面的禁止抓取无效.

3.大小写

Allow与Disallow的第一个字母必须为大写.允许和禁止的目录内容则一律为小写.

4.目录后边加"/"与不加"/"的区别

这里以一个实例来说明,先看以下内容:

Disallow: /muluo/

这一句是禁止所有引擎抓取网站date目录(包含子目录),那么/muluo.html这样的目录都是不会禁止的.它只对/muluo/123.html这样的地址有效,而下面这一句:

Disallow: /muluo

则能够禁止上面提到的两个地址.

5.百度和谷歌的一点区别

百度对于robots.txt文件,路径必须以"/"这个符号开始,而谷歌则相对要灵活得多,允许以"*"这样的字符开头.

6.不支持UTF-8 BOM格式

一般情况下,我们使用记事本的方式来编辑robots.txt文件就可以,切记不要将其以UTF-8 BOM格式来保存.

二.在线检测robots.txt文件的有效性

像百度谷歌这样的站长平台,都是能够在线检测robots.txt文件,当然也有第三方的网站可以用来在线检测,例如部落用seowhy提供的检测工具检测的结果如下:

robots1

可以发现,部落的检测地址为:由此直达,您也可以用这个来检测一下自已的网站.当然,百度站长平台也支持在线检测,不过只返回语法信息,不包括路径、实现逻辑的检测,我们进入百度站长平台,找到"网站分析"菜单下的"robots"这一项,输入自已的域名,如下:

robots2

点击检测按钮,就会得到您的检测结果,例如部落的结果如下:

robots3

相对而言,谷歌的robots就更加完善了,您不仅可以检测语法,还能验证自已的网址是否被robots文件禁止,登录到您的从歌站长平台,在左侧的"抓取"菜单下的"已拦截的网址"这个子菜单下,我们就可以看到自已的robots文件,如下图:

robots4

当然,如果前提是您已经验证了自已的网站,这时我们就可以在下方的框框中指定网址和 User-agent进行测试了,如下图:

robots5

点击上图中的"测试"按钮,您就能得到结果了,例如部落测试的结果如下:

robots6

可以看到,一些容易出现重复页面的链接地址都已经被robots禁止.

小结:

robots.txt文件是我们必须引起重视的一个文件,在去掉搜索引擎收录结果中的含有”comment-page-1″和”?replytocom=”的链接这一篇文章中,部落就写到了关于该文件的作用.当然,robots文件也不要太大,以免影响蜘蛛的抓取速度.大多数情况下,我们应该尽量在一些不需要抓限的页面链接下添加nofollow属性.

评论 4 条 评论内容很精采,有内幕,而且绝对有干货

  1. 免费资源部落 2013年08月31日 00:54  @回复  Δ-49楼 回复

    我经常用百度的来检测。


    • 管理员
      管理员 2013年09月01日 08:21  @回复  ∇地下1层 回复

      百度只能检测语法。其实搜外的检测工具也很不错,您可以试一下!

  2. 博客之家 2013年09月01日 13:08  @回复  Δ-48楼 回复

    已检查了,文件配置良好,谢谢!


    • 管理员
      管理员 2013年09月02日 09:46  @回复  ∇地下1层 回复

      最好能能在各个站长平台上多检测一下,以确保robots文件能正常运行.

给我留言