摘要: Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下: 1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。 使用方法: Shell代码 bin 阅读全文
posted @ 2017-11-27 16:30 星朝 阅读(462) 评论(0) 推荐(0)
摘要: 首先先从http://www.apache.org/dyn/closer.cgi/nutch/下载安装包 这里假定nutch的根目录为:${APACHE_NUTCH_HOME} 配置${APACHE_NUTCH_HOME}/ivy/ivy.xml,确保Nutch使用MySQL作为数据存储 将 [ht 阅读全文
posted @ 2017-11-27 15:25 星朝 阅读(484) 评论(0) 推荐(0)
摘要: MySQL简单实现多字段模糊查询 原创 2016年05月03日 16:40:20 标签: <! [startarticletags] java / 编程 / mysql / <! [endarticletags] 11648 <! <li <button class="btn noborder bu 阅读全文
posted @ 2017-11-27 15:21 星朝 阅读(1008) 评论(0) 推荐(0)
摘要: nutch的一些基础整理 原创 2015年03月22日 18:18:01 标签: <! [startarticletags] nutch / <! [endarticletags] 240 <! <li <button class="btn noborder but comment topicon" 阅读全文
posted @ 2017-11-27 14:43 星朝 阅读(282) 评论(0) 推荐(0)
摘要: Java分布式爬虫Nutch教程——导入Nutch工程,执行完整爬取 by briefcopy · Published 2016年4月25日 · Updated 2016年12月11日 在使用本教程之前,需要满足条件: 1)有一台Linux或Linux虚拟机 2)安装JDK(推荐1.7) 3)安装A 阅读全文
posted @ 2017-11-27 14:32 星朝 阅读(1197) 评论(0) 推荐(0)
摘要: 版本: Nutch 2.2.1 本文通过InjectJob来追踪webpage的定义、创建、传递、序列化、写入数据库的整个过程。从源码中摘录了重要的代码行,并标明其所在文件名、行号。 1. 定义 schema schema直接写在源代码里面: [cpp] view plain copy print? 阅读全文
posted @ 2017-11-27 14:12 星朝 阅读(346) 评论(0) 推荐(0)
摘要: Nutch2 WebPage 字段解释      Nutch2.2.1 id 主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息 阅读全文
posted @ 2017-11-27 13:58 星朝 阅读(277) 评论(0) 推荐(0)
摘要: 例如我在爬取学生在线的时候,发现爬取不到特定的通知,例如《中粮福临门助学基金申请公告》,通过分析发现原来通知的链接被过滤掉了,下面对过滤url的配置文件regex urlfilter.txt进行分析,以后如果需要修改可以根据自己的情况对该配置文件进行修改: 说明:配置文件中以“ ”开头的行为注释,以 阅读全文
posted @ 2017-11-27 13:53 星朝 阅读(501) 评论(0) 推荐(0)
摘要: Running Nutch in Eclipse Here are instructions for setting up a development environment for Nutch under the Eclipse IDE. It is intended to provide a c 阅读全文
posted @ 2017-11-27 10:57 星朝 阅读(240) 评论(0) 推荐(0)