爬虫避免环路应该使用的技术

1、规范化URL             

  将URL转化为标准形式避免语法上的别名

2、广度优先的爬行   

3、节流

  限制一段时间机器人可以从一个web站点的页面数量

4、限制URL的大小

机器人会拒绝爬行超出特定长度的(通常是1kb)的URL。

5、URL/站点黑名单

维护一个与机器人环路和陷阱想对应的已知站点及URL列表。

6、模式检测

文件系统的符号链接和类似的错误配置所造成的环路会遵循某种模式。(比如 URL“subdir/image/subdir/image”)

7、内容指纹

使用内容指纹的机器人会获取页面内容中的字节,并计算出一个校验和,这个校验和是页面内容的压缩表示形式。

8、人工监视

设计的机器人应该提供诊断和日志功能,这样人类可以监视机器人的进展,如果发生了什么异常的事情就可以很快收到警告。

posted @ 2018-01-17 14:46  Always_July  阅读(149)  评论(0编辑  收藏  举报