随笔档案「2016年9月13日」：[爬虫学习笔记]基于 SimHash 的去重复处理... - 玮仔Wayne

2016年9月13日

[爬虫学习笔记]基于 SimHash 的去重复处理模块ContentSeen的构建

摘要： Internet上的一些站点常常存在着镜像网站（mirror），即两个网站的内容一样但网页对应的域名不同。这样会导致对同一份网页爬虫重复抓取多次。为了避免这种情况，对于每一份抓取到的网页，它首先需要进入ContentSeen模块。该模块会判断网页的内容是否和已下载过的某个网页的内容一致，如果一致，则该网页不会再被送去进行下一步的处理。这样的做法能够显著的降低爬虫需要下载的网页... 阅读全文

posted @ 2016-09-13 20:00 玮仔Wayne 阅读(424) 评论(0) 推荐(0)

[爬虫学习笔记]ScrapySharp简单封装为Requester

摘要：为了便于使用及日后的扩展，将Scrapy简单封装为了Requester，具体代码如下： using System; using System.Collections.Generic; using Crawler.Common; namespace Crawler.Protocol { public class Requester { priv... 阅读全文

posted @ 2016-09-13 00:26 玮仔Wayne 阅读(257) 评论(0) 推荐(0)

公告