上一页 1 ··· 468 469 470 471 472 473 474 475 476 ··· 507 下一页
摘要: Java分布式爬虫Nutch教程——导入Nutch工程,执行完整爬取 by briefcopy · Published 2016年4月25日 · Updated 2016年12月11日 在使用本教程之前,需要满足条件: 1)有一台Linux或Linux虚拟机 2)安装JDK(推荐1.7) 3)安装A 阅读全文
posted @ 2017-11-27 14:32 星朝 阅读(1189) 评论(0) 推荐(0)
摘要: 版本: Nutch 2.2.1 本文通过InjectJob来追踪webpage的定义、创建、传递、序列化、写入数据库的整个过程。从源码中摘录了重要的代码行,并标明其所在文件名、行号。 1. 定义 schema schema直接写在源代码里面: [cpp] view plain copy print? 阅读全文
posted @ 2017-11-27 14:12 星朝 阅读(344) 评论(0) 推荐(0)
摘要: Nutch2 WebPage 字段解释      Nutch2.2.1 id 主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息 阅读全文
posted @ 2017-11-27 13:58 星朝 阅读(274) 评论(0) 推荐(0)
摘要: 例如我在爬取学生在线的时候,发现爬取不到特定的通知,例如《中粮福临门助学基金申请公告》,通过分析发现原来通知的链接被过滤掉了,下面对过滤url的配置文件regex urlfilter.txt进行分析,以后如果需要修改可以根据自己的情况对该配置文件进行修改: 说明:配置文件中以“ ”开头的行为注释,以 阅读全文
posted @ 2017-11-27 13:53 星朝 阅读(499) 评论(0) 推荐(0)
摘要: Running Nutch in Eclipse Here are instructions for setting up a development environment for Nutch under the Eclipse IDE. It is intended to provide a c 阅读全文
posted @ 2017-11-27 10:57 星朝 阅读(240) 评论(0) 推荐(0)
摘要: Linux Mint 17.1 安装全配置 I. 前言 由于自己的本子出现了一些故障需要重新安装系统,就上网看看今年4,5月份发布的一些新的发行版来试试。原先电脑上安装的是opensuse13.2, 由于对KDE的无爱,所以opensuse 装的是gnome环境,时间长了略有厌烦,我又是个颜控主义者 阅读全文
posted @ 2017-11-26 19:44 星朝 阅读(789) 评论(0) 推荐(0)
摘要: Ubuntu上进行sudo apt get upgrade后出现异常,升级失败。 异常信息如下: E: dpkg was interrupted, you must manually run 'dpkg configure a' to correct the problem 按照提示输入:sudo 阅读全文
posted @ 2017-11-26 19:42 星朝 阅读(1696) 评论(0) 推荐(0)
摘要: nutch+hadoop 配置使用   配置nutch+hadoop 1,下载nutch。如果不需要特别开发hadoop,则不需要下载hadoop。因为nutch里面带了hadoop core包以及相关配置 2,建立目录(根据自己喜好) /nutch  阅读全文
posted @ 2017-11-25 22:50 星朝 阅读(379) 评论(0) 推荐(0)
摘要: 选择perferences General Startup and Shutdown workspace 选择多余的工作空间 remove apply 阅读全文
posted @ 2017-11-25 22:26 星朝 阅读(211) 评论(0) 推荐(0)
摘要: 方法一: File >Switch workspace >Other...,按下图选择 只复制简单的配置,如cvs之类的信息是不会复制的。 方法二: 在方法一的基础上做如下操作 将新建的workspace下的.metadata\.plugins内容全部删除,将原来的workspace下的 阅读全文
posted @ 2017-11-25 21:14 星朝 阅读(1370) 评论(0) 推荐(0)
上一页 1 ··· 468 469 470 471 472 473 474 475 476 ··· 507 下一页