随笔分类 - 项目讲解

摘要：一、前言前一段时间，小小的写了一个爬虫，是关于电商网站的。今天，把它分享出来，供大家参考，如有不足之处，请见谅！（抱拳）二、准备工作我们实现的这个爬虫是Java编写的。所用到的框架或者技术如下： Redis：分布式的Key-Value数据库，用来作存储临时的页面URL的仓库。 HttpClie 阅读全文

posted @ 2016-05-21 00:05 低调才是王道阅读(29401) 评论(0) 推荐(2)

网络爬虫框架Heritrix中Modules的各项说明

摘要：1）Select Crawl Scope：Crawl Scope 用于配置当前应该在什么范围内抓取网页链接。例如选择 BroadScope 则表示当前的抓取范围不受限制，选择 HostScope 则表示抓取的范围在当前的 Host 范围内。在这里我们选择 org.archive.crawler.sc 阅读全文

posted @ 2015-01-22 22:08 低调才是王道阅读(574) 评论(0) 推荐(1)