摘要: Internet上的一些站点常常存在着镜像网站(mirror),即两个网站的内容一样但网页对应的域名不同。这样会导致对同一份网页爬虫重复抓取多次。为了避免这种情况,对于每一份抓取到的网页,它首先需要进入ContentSeen模块。该模块会判断网页的内容是否和已下载过的某个网页的内容一致,如果一致,则该网页不会再被送去进行下一步的处理。这样的做法能够显著的降低爬虫需要下载的网页... 阅读全文
posted @ 2016-09-13 20:00 玮仔Wayne 阅读(422) 评论(0) 推荐(0)
摘要: 为了便于使用及日后的扩展,将Scrapy简单封装为了Requester,具体代码如下: using System; using System.Collections.Generic; using Crawler.Common; namespace Crawler.Protocol { public class Requester { priv... 阅读全文
posted @ 2016-09-13 00:26 玮仔Wayne 阅读(255) 评论(0) 推荐(0)