爬虫避免环路应该使用的技术

　　将URL转化为标准形式避免语法上的别名

　　限制一段时间机器人可以从一个web站点的页面数量

机器人会拒绝爬行超出特定长度的(通常是1kb）的URL。

维护一个与机器人环路和陷阱想对应的已知站点及URL列表。

文件系统的符号链接和类似的错误配置所造成的环路会遵循某种模式。（比如 URL“subdir/image/subdir/image”）

使用内容指纹的机器人会获取页面内容中的字节，并计算出一个校验和，这个校验和是页面内容的压缩表示形式。

设计的机器人应该提供诊断和日志功能，这样人类可以监视机器人的进展，如果发生了什么异常的事情就可以很快收到警告。

posted @ 2018-01-17 14:46 Always_July 阅读(157) 评论(0) 收藏举报

刷新页面返回顶部