随笔分类 - 大数据
摘要:Nutch2 WebPage 字段解释 Nutch2.2.1 id 主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息
阅读全文
摘要:例如我在爬取学生在线的时候,发现爬取不到特定的通知,例如《中粮福临门助学基金申请公告》,通过分析发现原来通知的链接被过滤掉了,下面对过滤url的配置文件regex urlfilter.txt进行分析,以后如果需要修改可以根据自己的情况对该配置文件进行修改: 说明:配置文件中以“ ”开头的行为注释,以
阅读全文
摘要:Running Nutch in Eclipse Here are instructions for setting up a development environment for Nutch under the Eclipse IDE. It is intended to provide a c
阅读全文
摘要:nutch+hadoop 配置使用 配置nutch+hadoop 1,下载nutch。如果不需要特别开发hadoop,则不需要下载hadoop。因为nutch里面带了hadoop core包以及相关配置 2,建立目录(根据自己喜好) /nutch 
阅读全文
摘要:1、问题 permission /tmp/hadoop.... 解决方法:下载hadoop源码包,修改org.apache.hadoop.fs.FileUtil.java文件中方法checkReturnValue内容。将异常改为log。用意:不在检测文件系统路径问题 private st
阅读全文
摘要:欢迎转载,请注明来源: http://blog.csdn.net/u010967382/article/details/37878701 概述 对于建表,和RDBMS类似,HBase也有namespace的概念,可以指定表空间创建表,也可以直接创建表,进入default表空间。 对于数据操作,HBa
阅读全文
摘要:/×××××××××××××××××××××××××××××××××××××××××/ Author:xxx0624 HomePage:http://www.cnblogs.com/xxx0624/ /×××××××××××××××××××××××××××××××××××××××××/
阅读全文
摘要:最近看了下Nutch,目前Nutch最新版本2.3.1,支持Hbase、MongoDB等存储,但在搭建和测试过程中发现对Mysql 的支持好像有点问题。 后来将Nutch版本改为2.2.1。基于Nutch2.2.1+Mysql 的环境配置过程如下: 1.下载Nutch2.2.1 源码:SVN:htt
阅读全文

浙公网安备 33010602011771号