随笔分类 -  大数据

上一页 1 ··· 11 12 13 14 15
摘要:Nutch2 WebPage 字段解释      Nutch2.2.1 id 主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息 阅读全文
posted @ 2017-11-27 13:58 星朝 阅读(274) 评论(0) 推荐(0)
摘要:例如我在爬取学生在线的时候,发现爬取不到特定的通知,例如《中粮福临门助学基金申请公告》,通过分析发现原来通知的链接被过滤掉了,下面对过滤url的配置文件regex urlfilter.txt进行分析,以后如果需要修改可以根据自己的情况对该配置文件进行修改: 说明:配置文件中以“ ”开头的行为注释,以 阅读全文
posted @ 2017-11-27 13:53 星朝 阅读(499) 评论(0) 推荐(0)
摘要:Running Nutch in Eclipse Here are instructions for setting up a development environment for Nutch under the Eclipse IDE. It is intended to provide a c 阅读全文
posted @ 2017-11-27 10:57 星朝 阅读(240) 评论(0) 推荐(0)
摘要:nutch+hadoop 配置使用   配置nutch+hadoop 1,下载nutch。如果不需要特别开发hadoop,则不需要下载hadoop。因为nutch里面带了hadoop core包以及相关配置 2,建立目录(根据自己喜好) /nutch  阅读全文
posted @ 2017-11-25 22:50 星朝 阅读(379) 评论(0) 推荐(0)
摘要:1、问题 permission /tmp/hadoop.... 解决方法:下载hadoop源码包,修改org.apache.hadoop.fs.FileUtil.java文件中方法checkReturnValue内容。将异常改为log。用意:不在检测文件系统路径问题  private st 阅读全文
posted @ 2017-11-24 18:04 星朝 阅读(496) 评论(0) 推荐(0)
摘要:欢迎转载,请注明来源: http://blog.csdn.net/u010967382/article/details/37878701 概述 对于建表,和RDBMS类似,HBase也有namespace的概念,可以指定表空间创建表,也可以直接创建表,进入default表空间。 对于数据操作,HBa 阅读全文
posted @ 2017-11-24 16:54 星朝 阅读(1533) 评论(0) 推荐(1)
摘要:/×××××××××××××××××××××××××××××××××××××××××/ Author:xxx0624 HomePage:http://www.cnblogs.com/xxx0624/ /×××××××××××××××××××××××××××××××××××××××××/   阅读全文
posted @ 2017-11-23 17:24 星朝 阅读(316) 评论(0) 推荐(0)
摘要:最近看了下Nutch,目前Nutch最新版本2.3.1,支持Hbase、MongoDB等存储,但在搭建和测试过程中发现对Mysql 的支持好像有点问题。 后来将Nutch版本改为2.2.1。基于Nutch2.2.1+Mysql 的环境配置过程如下: 1.下载Nutch2.2.1 源码:SVN:htt 阅读全文
posted @ 2017-11-23 14:39 星朝 阅读(267) 评论(0) 推荐(0)

上一页 1 ··· 11 12 13 14 15