现在的位置:首页>网站SEO>正文

各个大型门户网站的robots文件内容

2013年03月17日 ⁄ 共 1141字 暂无评论

robots.txt文件不是每一个网站所必需的,但是robots却能非常有效地缓解搜索引擎对你的网站服务器造成的压力.当一个搜索蜘蛛访问一个站点时,它首先访问的就是该站点下的robots文件,如果一个网站的根目录下没有robots文件,则表示允许搜索蜘蛛抓取网站内的所有内容,如果你的网站不是很大的话,设不设置robots意义不是很大.而当网站内容达到一定数量的时候,就很有必要设置自已的robots文件了.

特别是当您的网站出现一些问题时,比如搜索引擎收录了重复页面,您可以参考一下robots.txt文件的配置误区及在线检测robots.txt文件的有效性这篇文章,以免您的网站被降权.下面我们就来看看国内一些大型网站的robots文件内容.

一.淘宝网的robots

对于我们所熟悉的各个大型网站,与robots文件相关的最有名的莫过于淘宝网

很多人都知道,淘宝是不允许搜索蜘蛛抓取其网站内的任何内容的,如下图:

robots文件内容

淘宝网的做法具有相当强的个性,像我们这些小网站有时候求搜索蜘蛛都不一定会来,每天还得拼命去做些外链,人家居然能够禁止搜索蜘蛛访问.不过这也得益于人家自身品牌的强大.

二.百度的robots文件内容

百度的robots文件曾经是部落刚学会做站最好奇的,来看看:

robots文件内容

百度禁止所有的搜索引擎访问自已的搜索页面,除百度以外的搜索引擎则禁止访问/shifen/,/homepage/和/cpro页面.

三.新浪的robots文件内容

这也许是一个秘密了,因为部落在新浪的网站地址后加入/robots.txt后,提示找不到该页面,可能新浪允许搜索蜘蛛抓取全站内容,也有可能通过其它的手法禁止蜘蛛抓取了.

四.腾讯的robots文件内容

腾讯的robots是比较简洁的,如下图:

robots文件内容

允许所有页面被蜘蛛抓取,并附上自已网站的网站地图.

五.搜狐:经查证无任何内容,部落在搜狐网站找不到robots文件

六.网易:同样是一空白页面.

七.凤凰网的robots文件内容

凤凰网禁止了蜘蛛抓取首页和错误页面内容,如下图:

robots文件内容

注意,上图中的/phoenixtv/就是凤凰网的错误页面.

八.谷歌的robots文件内容

谷歌的robots可以说是我见过的内容最多的,其中有允许的内容,也有不允许抓取的内容,如下图:

robots文件内容
上图中截取的只是谷歌robots文件中的一部分内容,部落花了一些时间看了一下,发现谷歌robots文件光是Sitemap就占用了6行文字,也就是6个Sitemap地址.感兴趣的可以自已去浏览器上查看一下.

当然,不只是这些网站有robots文件,部落的网站同样有,如果你想看看部落的写了些什么内容,可以查看网站优化之robots.txt文件编写及优化这篇文章,在这篇文章里,部落将自已网站的robots内容全部写在里面了.

给我留言