现在的位置:首页>网站SEO>正文

搜索引擎蜘蛛与网站服务器压力及优化的一些问题收集

2016年09月22日 ⁄ 共 3543字 评论 1 条

可能很多朋友一直以为,网站中过来了搜索引擎的爬虫,而且爬虫越来越多的时候,是一件好事,其实不然,可以说任何事情都有其相反的一面,就像百度站长平台,是允许我们对网站的抓取压力进行微调一样,之所以会有这样一出,主要还是对于网站服务器压力的优化,一般来说,蜘蛛抓取当然是适度为好,这样的话,既能保证网站被收录,又不至于造成对服务器压力过大.

当然,像一些新上线的网站,就不用去多想,只要有蜘蛛来到您的网站,就是好现像.

搜索引擎蜘蛛抓取网页的原理

搜索引擎蜘蛛,又被称为网页爬虫,网络机器人.是搜索引擎获得网页的工具,是一款爬行程序(俗称蜘蛛),蜘蛛程序每天都会爬行大量的网页,并将一些新的网页信息带到服务器以便进行网页索引的建立.

搜索引擎蜘蛛与网站服务器压力及优化的一些问题收集

互联网就是由一个个链接构成的,蜘蛛程序顺着这些链接爬行并发现网页信息,蜘蛛程序爬行每一个页面,当这个页面不再有新的链接信息的时候,它就返回,下次再到这个页面的时候,再去爬行.当有更新时,返回码和没有更新时是不一样的.

在爬行的时候,它还会不断的向服务器提供信息,所以我们在进行网站日志分析的时候,如果发现某一个网页被某个搜索引擎的蜘蛛程序程序爬行并成功抓取数据,那么,这个网页就很有可能被其建立起索引.也就是有可能补收录.

当蜘蛛程序在爬行链接的过程中,它还会对爬行过的链接进行处理,因为链接需要载体(文字、图片或其他信息),发现链接载体并存储链接数据,越是更新快的站点,搜索引擎过来爬取的频率越高,这也就是为什么一些大站,一有文章发布就能被收录,达到秒收的功效.最重要的一点就是更新快.

各大搜索引擎蜘蛛的名称

1、百度蜘蛛:Baiduspider

网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,那是旧黄历了。百度蜘蛛最新名称为Baiduspider,我通过对马海祥博客日志的检查还发现了Baiduspider-image这个百度旗下蜘蛛,是抓取图片的蜘蛛.

常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻).

2、谷歌蜘蛛:Googlebot

这个争议较少,但也有说是GoogleBot的,谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”,不过,我还在马海祥博客的日志中发现了Googlebot-Mobile,看名字是抓取wap内容的.

3、360蜘蛛:360Spider

它是一个很“勤奋抓爬”的蜘蛛.

4、SOSO蜘蛛:Sosospider

5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!

6、有道蜘蛛:YoudaoBot,YodaoBot

7、搜狗蜘蛛:Sogou News Spider

另外,搜狗蜘蛛还包括以下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider.

8、MSN蜘蛛:msnbot,msnbot-media

9、必应蜘蛛:bingbot,线上(compatible; bingbot/2.0;)

10、一搜蜘蛛:YisouSpider

11、Alexa蜘蛛:ia_archiver

12、宜搜蜘蛛:EasouSpider

13、即刻蜘蛛:JikeSpider

14、一淘网蜘蛛:EtaoSpider

15.神马搜索蜘蛛, Yisouspider是神马搜索的网页爬虫,同时也在为CNZZ云推荐提供服务。网页爬虫是搜索引擎访问互联网,自动化抓取网页内容的程序.

网上之前的很多老文章,都没有提到过这个蜘蛛,事实上现在我们要重视神马搜索了.

另外,还有一些如YandexBot、AhrefsBot和ezooms.bot这些蜘蛛,据说这些蜘蛛国外的,对中文网站用处很小.

搜索引擎蜘蛛是不是越多越好?

这一点前面说过了,适度为好.不论哪个搜索引擎的爬虫,来抓取你网站的页面的时候,肯定在消耗你的网站资源,例如网站的连接数、网络带宽资源(空间流量)、服务器的负载、甚至还有盗链等,那是不是所有的搜索引擎蜘蛛都是有用呢?

另外,搜索引擎的爬虫来抓取你的页面数据后,它也不一定收用数据,只代表它“到此一游”留下痕迹而已,据马海祥了解有些搜索引擎只是过来找下它想要的资源,甚至还有很多是开发人员的蜘蛛测试.

对于一个原创内容丰富,URL结构合理易于爬取的网站来说,简直就是各种爬虫的盘中大餐,很多网站的访问流量构成当中,爬虫带来的流量要远远超过真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级.

对于那些想提高网站有效利用率的网站,虽然设置了相当严格的反爬虫策略,但是网站处理的动态请求数量仍然是真实用户访问流量的2倍.

可以肯定的说,当今互联网的网络流量有很大一部分的流量是爬虫带来的,因此反搜索引擎爬虫是一个值得SEO长期探索和解决的问题.

所以,从SEO的角度来说,搜索引擎蜘蛛来网站访问并非越多越好,并且还要合理的屏蔽无效的搜索引擎蜘蛛的抓取.

过多的搜索引擎爬虫对网站(服务器)的影响

既然对于网站来说,搜索引擎蜘蛛并非是越多越好,那么,这具体是因为什么原因导致的呢?

1、浪费带宽资源

如果你的网站带宽资源有限,而爬虫的量过多,导致正常用户访问缓慢,原本虚拟主机主机的连接数受限,带宽资源也是有限,这种情况搜索引擎爬虫受影响呈现更明显.

2、过于频繁的抓取会导致服务器报错

如果搜索引擎爬虫过于频繁,会抓取扫描很多无效页面,甚至抓页面抓到服务器报502、500 、504等服务器内部错误了,蜘蛛爬虫还在不停使劲抓取.

3、与网站主题不相关的搜索引擎爬虫消耗资源

比如一淘网的抓取工具是一淘网蜘蛛(EtaoSpider),目前是被各大电子商务购物网站屏蔽的,拒绝一淘网抓取其商品信息及用户产生的点评内容。
被禁止的原因首先应该是它们之间没有合作互利的关系,还有就是EtaoSpider爬虫是一个抓取最疯狂的蜘蛛,据马海祥对一些电商网站的测试发现:一淘网蜘蛛(EtaoSpider)的一天爬行量比“百度蜘蛛(Baiduspider)”“360蜘蛛(360Spider)”“SOSO蜘蛛(Sosospider)”等主流蜘蛛爬虫多几倍,并且是远远的多.

重点是EtaoSpider被抓取只会消耗你的网站资源,它不会给你带来访问量,或者其它对你有利用的.

4、无效的测试抓取

一些搜索引擎开发程序员,它们写的爬虫程序在测试爬行.

5、robots.txt文件也并非是万能

肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果.

正规搜索引擎会遵守规则,不过不会及时生效,实际上某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt,也可能它抓取后不一定留用,或者它只是统计信息,收集互联网行业趋势分析统计.

6、不是搜索引擎蜘蛛,但具有蜘蛛的特性

例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具等等,这些抓取对网站没有任何好处.

这里部落补充一下,一些站长类的工具,基本都是打着百度蜘蛛的旗号在操作,所以我们在发现这样的蜘蛛的时候,也可以适当屏蔽一些.这一点后面会讲.

4种解决无效搜索引擎蜘蛛抓取的方法

各种搜索引擎的蜘蛛爬虫会不断地访问抓取我们站点的内容,也会消耗站点的一定流量,有时候就需要屏蔽某些蜘蛛访问我们的站点.来看看4种解决无效搜索引擎蜘蛛抓取的方法:

1、只运行常用的搜索引擎蜘蛛抓取

依据空间流量实际情况,就保留几个常用的,屏蔽掉其它蜘蛛以节省流量.

2、通过服务器防火墙来屏蔽ip

从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP,这是最直接、有效的屏蔽方法.

3、服务器层面做限制

例如Nginx,Squid,Lighttpd,直接通过“http_user_agent”屏蔽搜索引擎爬虫.

4、最后robots.txt文件做限制

搜索引擎国际规则还是要遵循规则的.比如说同时屏蔽百度和谷歌如下:

  1. User-agent: Baiduspider   
  2. Disallow: /   
  3. User-agent: Googlebot   
  4. Disallow: /   

我们可以根据文章最前面的蜘蛛名称,来适当屏蔽一些.

小结

文章内容来源自网络,由免费部落整理发布.

一旦当您的网站的日志中出现很多的错误日志,比如400之类的,或者是抓取链接超时之类的,部落觉得我们就很有必要去对搜索引擎爬虫作一些限制了.当然,更多的时候,可能都是一些伪爬虫引起来的.

评论 1 条 评论内容很精采,有内幕,而且绝对有干货

  1. 我爱动感单车网 2016年09月22日 13:18  @回复  Δ-49楼 回复

    这篇文章于我而言十分有用,值得咱收藏学习!

给我留言