2014年3月21日
摘要: 下面是Nutch搜索系列目录,希望对研究Nutch的同学有所帮助。 目录安排: 1)Nutch搜索引擎(第1期)_ Nutch简介及安装[下载] 2)Nutch搜索引擎(第2期)_ Solr简介及安装[下载] 3)Nutch搜索引擎(第3期)_ Nutch简单应用 4)Nutch搜索引擎(第4期)_ 阅读全文
posted @ 2014-03-21 13:23 虾皮 阅读(7139) 评论(4) 推荐(1) 编辑
摘要: 1、Nutch简介 Nutch是一个由Java实现的,开放源代码(open-source)的web搜索引擎。主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构。 Nutch目前最新的版本为version1.4。1.1 Nutch的目标 Nutch 致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎。为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十... 阅读全文
posted @ 2014-03-21 12:19 虾皮 阅读(34514) 评论(5) 推荐(19) 编辑