现在的位置:首页>网站SEO>正文

robots文件对于搜索引擎来说,支持中文目录吗?

2016年11月30日 ⁄ 共 963字 评论 1 条

robots文件对于网站的重要性,相信很多站长都是知道的,正常情况下,我们会在这个文件里开放一些目录,用来指出搜索引擎的蜘蛛那些是可以爬取的,对一些不允许的文件,则设置为禁止爬虫爬行,但有些朋友的url里,是含有中文的,部落在百度的官方找到的资料里显示,这些的url,是不会被蜘蛛抓取的,但我们可以通过UrlEncode编码来操作,当然,这个成功率也不一定高。需要的朋友,可以自行测试一下。

什么是robots文件?

robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。

robots文件对于搜索引擎来说,支持中文目录吗

有同学问百度站长学院一个关于robots的问题:我们有个站点的目录结构使用的是中文,这样式儿的:www.mfbuluo.com/教程/123.html,那在制作robots文件和sitemap文件的时候,可以直接使用中文吗?百度能获取到吗?在实际操作中我们发现,sitemap中有文件是可以生效的,但robots封禁貌似没有反应,所以想确认一下:robots文件是否支持中文?

工程师解答:Baiduspider目前(2016年10月)在robots里是不支持中文的。

同学追问:那我们进行UrlEncode编码会不会支持呢?比如这种:http://www.a.cn/%E7%89%B9%E6%AE%8A:%E6%B5%8F%E8%A7%88/%E7%94%9F%E6%AD%BB%E7%8B%99%E5%87%BB:%E7%99%BD%E9%93%B6%E5%8A%A0%E7%89%B9%E6%9E%97

(知识普及:UrlEncode是一个函数,可将字符串以URL编码,用于编码处理。)

工程师解答:robots文件支持这种写法。但是否生效,还要取决于当时BaiduSpider抓取的是哪种形式结构的链接,如果是UrlEncode编码就可以生效,如果是中文就非常不幸了。

 

 

小结

正常情况下,我们应该尽量避免在自己站点的url中出现中文字,特别是一些使用wordpress的朋友,如果不进行相应的设置,默认的情况下,像标签这些,基本url里全都是中文的。

评论 1 条 评论内容很精采,有内幕,而且绝对有干货

  1. 动感单车 2016年12月07日 21:41  @回复  Δ-49楼 回复

    虽然自己的博客建立一年多了,但一直闹不明白robots文件是否写的正确与合理。

给我留言