网络爬客光顾博客园

     这里的网络爬客是指不考虑对目标网站的性能影响,疯狂抓取目标网站内容的软件、网站。
     最近,博客园时常遇到网站性能问题,出现问题时数据库服务器CPU占用为100%。
     今天下午又发生了几次,五点多钟的时候,我跟踪了一下网络爬客的行为。
     网络爬客来自222.68.190.202,UserAgent为Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; Maxthon; .NET CLR 1.1.4322)。访问频率大约是3次/秒,访问地址是各个Blog中分类的RSS。虽然这些RSS通过静态文件进行了缓存,但分类的RSS访问量比较小,很多RSS的缓存已经过期,网络爬客这样疯狂地访问不同的RSS,给数据库带来了很大的压力。难怪博客园网站最近常出现性能问题,都是这些网络爬客惹的祸!
     随着网络爬客越来越多,将成为互联网上的祸害,如果没有有效的解决方法,很多网站将为此投入更多的软、硬件成本来保证网站的性能,想到为了这些网络爬客而投入更多成本,实在令人恼火!
     解决这样的问题也不是很难,只要有软件开发商开发出这样的软件产品—反爬客系统,分析网站的访问行为,拒绝网络爬客就行了,目前网络爬客带来的问题还不严重,所以暂时还没出现这样的软件。
     博客园需要先想办法减少这个问题带来的影响,有两种选择:
     1、对网站程序进行性能优化,让网站经得起网络爬客的攻击。
     这虽然能缓解问题,但遇到很疯狂的网络爬客时,问题还会出现。
     2、拒绝网络爬客。
     这就需要记录网站的每次访问,分析网站访问行为,找出网络爬客,但这里要面临两个问题:
    1、这些数据量很大,记录这些数据会增加数据库服务器的负担,对性能会产生影响。
    2、找出网络爬客时,还要筛选出一些有名的搜索引擎,哪个网站也不愿拒绝这些搜索引擎,这也是个技术难题。
    希望有经验的朋友能够提供一些建议,这是很多网站都会面临的问题。
posted @ 2006-07-10 18:48  dudu  阅读(2614)  评论(23编辑  收藏  举报