随笔分类 -  项目讲解

分布式网络爬虫的基本实现简述
摘要:一、前言 前一段时间,小小的写了一个爬虫,是关于电商网站的。今天,把它分享出来,供大家参考,如有不足之处,请见谅!(抱拳) 二、准备工作 我们实现的这个爬虫是Java编写的。所用到的框架或者技术如下: Redis:分布式的Key-Value数据库,用来作存储临时的页面URL的仓库。 HttpClie 阅读全文
posted @ 2016-05-21 00:05 低调才是王道 阅读(29392) 评论(0) 推荐(2)
网络爬虫框架Heritrix中Modules的各项说明
摘要:1)Select Crawl Scope:Crawl Scope 用于配置当前应该在什么范围内抓取网页链接。例如选择 BroadScope 则表示当前的抓取范围不受限制,选择 HostScope 则表示抓取的范围在当前的 Host 范围内。在这里我们选择 org.archive.crawler.sc 阅读全文
posted @ 2015-01-22 22:08 低调才是王道 阅读(572) 评论(0) 推荐(1)