随笔分类 - 搜索引擎
摘要:前面我们看了一下Generate的流程,它是为Fetch产生相应的fetchlist,这里想介绍一下Segment的查看工具SegmentReader类。1. 命令介绍bin/nutchreadsegUsage:SegmentReader(-dump...|-list...|-get...)[generaloptions]// 这里是一般的参数说明*Generaloptions:-nocontentignorecontentdirectory-nofetchignorecrawl_fetchdirectory-nogenerateignorecrawl_generatedirectory-no
阅读全文
摘要:1. Generate的作用 在Inject之后就是Generate,这个方法主要是从CrawlDb中产生一个Fetch可以抓取的url集合(fetchlist),再结合一定的过滤条件,它的命令行如下: bin/nutchgenerateUsage:Generator<crawldb><segments_dir>[-force][-topNN][-numFetchersnumFetchers][-adddaysnumDays][-noFilter][-noNorm][-maxNumSegmentsnum] 参数说明: * crawldb: crawldb的相对路径 *
阅读全文
摘要:上次我们分析了Inject的整个流程,其中说到了Inject的输出格式是MapSequenceFileOutputFormat,这个格式可以使用一个叫CrawlDbReader的工具来读取和分析。下面我们就来分析一下这个工具有哪些用。1. CrawlDbReader工具的使用方法 在命令行中运行bin/nutch readdb后就可以看到其帮助,实际上这个shell方法调用的正是CrawlDbReader的main方法,这个工具有下面几种使用方法: * bin/nutch <crawldb> -stats -sort 这个方法是在终端中打印所有crawldb的统计信息,加上sort
阅读全文
摘要:1. Inject是干嘛的?在Nutch中Inject是用来把文本格式的url列表注入到抓取数据库中,一般是用来引导系统的初始化。这里的文本格式如下:http://www.nutch.org/\tnutch.score=10\tnutch.fetchInterval=2592000\tuserType=open_source这里的url与其元数据之间用Tab隔开,这里有两个保留的元数据,如下nutch.score : 表示特定url的分数nutch.fetchInterval : 表示特定url的抓取间隔,单位为毫秒Inject注入后生成的数据库为二进制结构,是Hadoop的MapSequen
阅读全文
摘要:1. Nutch 1.3 运行命令的一些介绍 要看Nutch的命令说明,可执行如下命令bin/nutchUsage:nutch[-core]COMMANDwhereCOMMANDisoneof:crawlone-stepcrawlerforintranetsreaddbread/dumpcrawldbconvdbconvertcrawldbfrompre-0.9formatmergedbmergecrawldb-s,withoptionalfilteringreadlinkdbread/dumplinkdbinjectinjectnewurlsintothedatabasegeneratege
阅读全文
摘要:1. Nutch是什么? Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构2. 在哪里要可以下载到最新的Nutch?在下面地址中可以下载到最新的Nutch 1.3二进制包和源代码http://mirror.bjtu.edu.cn/apache//nutch/3. 如何配置Nutch? 3.1 对下载后的压缩包进行解压,然后cd $HOME/nut
阅读全文
摘要:目录 Apache Nutch 1.3 学习笔记一 Apache Nutch 1.3 学习笔记二 Apache Nutch 1.3 学习笔记三(Inject) Apache Nutch 1.3 学习笔记三( Inject CrawlDB Reader) Apache Nutch 1.3 学习笔记四(Generate) Apache Nutch 1.3 学习笔记四(SegmentReader分析) Apache Nutch 1.3 学习笔记五(FetchThread) Apache Nutch 1.3 学习笔记五(Fetcher流程) Apache Nutch 1.3 学习笔记六(ParseSe
阅读全文
摘要:Lucene3.0之结果排序(原理篇)传统上,人们将信息检索系统返回结果的排序称为"相关排序"(relevance ranking),隐含其中各条目的顺序反映结果和查询的相关程度。 1、基本排序原理①向量空间模型Gerald Salton等在30多年前提出的"向量空间模型"(Vector Space Model,VSM)[Salton and Lesk,1968, Salton,1971]。该模型的基础是如下假设:文档d和查询q的相关性可以由它们包含的共有词汇情况来刻画。 经典的TF*IDF词项权重的计算公式: 给定某种权重的定量设计,求文档和查询的相关
阅读全文
摘要:有关Lucene的Payload的相关内容,可以参考如下链接,介绍的非常详细,值得参考:http://www.ibm.com/developerworks/cn/opensource/os-cn-lucene-pl/http://www.lucidimagination.com/blog/2009/08/05/getting-started-with-payloads/ 例如,有这样的一个需求:现在有两篇文档内容非常相似,如下所示:文档1:egg tomato potato bread 文档2:egg book potato bread 现在我想要查询食物(foods),而且是查询关键词是..
阅读全文
摘要:介绍:Apache Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,也是目前最为流行的基于 Java 开源全文检索工具包。 第一部分:概述我们在很多地方都可以看到搜索功能Windows系统中的有搜索功能:打开"我的电脑",按"F3"就可以使用查找的功能,查找指定的文件或文件夹。搜索的范围是整个电脑中的文件资源。Eclipse中的帮助子系统:点击HelpàHelp Contents,可以查找出相关的帮助信息。搜索的
阅读全文

浙公网安备 33010602011771号