会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
星朝
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
467
468
469
470
471
472
473
474
475
···
507
下一页
2017年11月28日
Lucene学习
摘要: 1. 全文检索基础 1.1. 我们身边的搜索功能 1. Windows系统中的有搜索功能:打开“我的电脑”,按“F3”就可以使用查找的功能,查找指定的文件或文件夹。搜索的范围是整个电脑中的文件资源。 2. Eclipse中的帮助子系统:点击HelpàHelp&
阅读全文
posted @ 2017-11-28 09:57 星朝
阅读(1746)
评论(2)
推荐(0)
2017年11月27日
Nutch命令大全
摘要: Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下: 1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。 使用方法: Shell代码 bin
阅读全文
posted @ 2017-11-27 16:30 星朝
阅读(467)
评论(0)
推荐(0)
Nutch的配置(使用MySQL作为数据存储)
摘要: 首先先从http://www.apache.org/dyn/closer.cgi/nutch/下载安装包 这里假定nutch的根目录为:${APACHE_NUTCH_HOME} 配置${APACHE_NUTCH_HOME}/ivy/ivy.xml,确保Nutch使用MySQL作为数据存储 将 [ht
阅读全文
posted @ 2017-11-27 15:25 星朝
阅读(495)
评论(0)
推荐(0)
MySQL简单实现多字段模糊查询
摘要: MySQL简单实现多字段模糊查询 原创 2016年05月03日 16:40:20 标签: <! [startarticletags] java / 编程 / mysql / <! [endarticletags] 11648 <! <li <button class="btn noborder bu
阅读全文
posted @ 2017-11-27 15:21 星朝
阅读(1012)
评论(0)
推荐(0)
nutch的一些基础整理
摘要: nutch的一些基础整理 原创 2015年03月22日 18:18:01 标签: <! [startarticletags] nutch / <! [endarticletags] 240 <! <li <button class="btn noborder but comment topicon"
阅读全文
posted @ 2017-11-27 14:43 星朝
阅读(282)
评论(0)
推荐(0)
Java分布式爬虫Nutch教程——导入Nutch工程,执行完整爬取
摘要: Java分布式爬虫Nutch教程——导入Nutch工程,执行完整爬取 by briefcopy · Published 2016年4月25日 · Updated 2016年12月11日 在使用本教程之前,需要满足条件: 1)有一台Linux或Linux虚拟机 2)安装JDK(推荐1.7) 3)安装A
阅读全文
posted @ 2017-11-27 14:32 星朝
阅读(1206)
评论(0)
推荐(0)
Nutch2 WebPage写入数据库的过程分析
摘要: 版本: Nutch 2.2.1 本文通过InjectJob来追踪webpage的定义、创建、传递、序列化、写入数据库的整个过程。从源码中摘录了重要的代码行,并标明其所在文件名、行号。 1. 定义 schema schema直接写在源代码里面: [cpp] view plain copy print?
阅读全文
posted @ 2017-11-27 14:12 星朝
阅读(350)
评论(0)
推荐(0)
Nutch2 WebPage 字段解释
摘要: Nutch2 WebPage 字段解释 Nutch2.2.1 id 主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息
阅读全文
posted @ 2017-11-27 13:58 星朝
阅读(285)
评论(0)
推荐(0)
nutch如何修改regex-urlfilter.txt爬取符合条件的链接
摘要: 例如我在爬取学生在线的时候,发现爬取不到特定的通知,例如《中粮福临门助学基金申请公告》,通过分析发现原来通知的链接被过滤掉了,下面对过滤url的配置文件regex urlfilter.txt进行分析,以后如果需要修改可以根据自己的情况对该配置文件进行修改: 说明:配置文件中以“ ”开头的行为注释,以
阅读全文
posted @ 2017-11-27 13:53 星朝
阅读(505)
评论(0)
推荐(0)
Run Nutch In Eclipse on Linux and Windows nutch version 0.9
摘要: Running Nutch in Eclipse Here are instructions for setting up a development environment for Nutch under the Eclipse IDE. It is intended to provide a c
阅读全文
posted @ 2017-11-27 10:57 星朝
阅读(244)
评论(0)
推荐(0)
上一页
1
···
467
468
469
470
471
472
473
474
475
···
507
下一页
公告