2017 年 11月 27 日随笔档案 - 星朝

2017年11月27日

摘要： Nutch采用了一种命令的方式进行工作，其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下： 1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称，它是一个完整的爬取和索引过程命令。使用方法： Shell代码 bin 阅读全文

posted @ 2017-11-27 16:30 星朝阅读(462) 评论(0) 推荐(0)

Nutch的配置（使用MySQL作为数据存储）

摘要：首先先从http://www.apache.org/dyn/closer.cgi/nutch/下载安装包这里假定nutch的根目录为：${APACHE_NUTCH_HOME} 配置${APACHE_NUTCH_HOME}/ivy/ivy.xml，确保Nutch使用MySQL作为数据存储将 [ht 阅读全文

posted @ 2017-11-27 15:25 星朝阅读(484) 评论(0) 推荐(0)

MySQL简单实现多字段模糊查询

摘要： MySQL简单实现多字段模糊查询原创 2016年05月03日 16:40:20 标签： <! [startarticletags] java / 编程 / mysql / <! [endarticletags] 11648 <! <li <button class="btn noborder bu 阅读全文

posted @ 2017-11-27 15:21 星朝阅读(1008) 评论(0) 推荐(0)

nutch的一些基础整理

摘要： nutch的一些基础整理原创 2015年03月22日 18:18:01 标签： <! [startarticletags] nutch / <! [endarticletags] 240 <! <li <button class="btn noborder but comment topicon" 阅读全文

posted @ 2017-11-27 14:43 星朝阅读(282) 评论(0) 推荐(0)

Java分布式爬虫Nutch教程——导入Nutch工程，执行完整爬取

摘要： Java分布式爬虫Nutch教程——导入Nutch工程，执行完整爬取 by briefcopy · Published 2016年4月25日 · Updated 2016年12月11日在使用本教程之前，需要满足条件： 1）有一台Linux或Linux虚拟机 2）安装JDK（推荐1.7） 3）安装A 阅读全文

posted @ 2017-11-27 14:32 星朝阅读(1197) 评论(0) 推荐(0)

Nutch2 WebPage写入数据库的过程分析

摘要：版本: Nutch 2.2.1 本文通过InjectJob来追踪webpage的定义、创建、传递、序列化、写入数据库的整个过程。从源码中摘录了重要的代码行，并标明其所在文件名、行号。 1. 定义 schema schema直接写在源代码里面： [cpp] view plain copy print? 阅读全文

posted @ 2017-11-27 14:12 星朝阅读(346) 评论(0) 推荐(0)

Nutch2 WebPage 字段解释

摘要： Nutch2 WebPage 字段解释 Nutch2.2.1 id 主键，根据网页url生成(格式：reversed domain name:protocol:port and path),因此，Nutch2只能保存当前网页的状态，而不能保存历史信息阅读全文

posted @ 2017-11-27 13:58 星朝阅读(277) 评论(0) 推荐(0)

nutch如何修改regex-urlfilter.txt爬取符合条件的链接

摘要：例如我在爬取学生在线的时候，发现爬取不到特定的通知，例如《中粮福临门助学基金申请公告》，通过分析发现原来通知的链接被过滤掉了，下面对过滤url的配置文件regex urlfilter.txt进行分析，以后如果需要修改可以根据自己的情况对该配置文件进行修改：说明：配置文件中以“ ”开头的行为注释，以阅读全文

posted @ 2017-11-27 13:53 星朝阅读(501) 评论(0) 推荐(0)

Run Nutch In Eclipse on Linux and Windows nutch version 0.9

摘要： Running Nutch in Eclipse Here are instructions for setting up a development environment for Nutch under the Eclipse IDE. It is intended to provide a c 阅读全文

posted @ 2017-11-27 10:57 星朝阅读(240) 评论(0) 推荐(0)