摘要: 前面我们看了一下Generate的流程,它是为Fetch产生相应的fetchlist,这里想介绍一下Segment的查看工具SegmentReader类。1. 命令介绍bin/nutchreadsegUsage:SegmentReader(-dump...|-list...|-get...)[generaloptions]// 这里是一般的参数说明*Generaloptions:-nocontentignorecontentdirectory-nofetchignorecrawl_fetchdirectory-nogenerateignorecrawl_generatedirectory-no 阅读全文
posted @ 2011-10-22 22:41 爱开卷360 阅读(951) 评论(0) 推荐(1) 编辑
摘要: 1. Generate的作用 在Inject之后就是Generate,这个方法主要是从CrawlDb中产生一个Fetch可以抓取的url集合(fetchlist),再结合一定的过滤条件,它的命令行如下: bin/nutchgenerateUsage:Generator<crawldb><segments_dir>[-force][-topNN][-numFetchersnumFetchers][-adddaysnumDays][-noFilter][-noNorm][-maxNumSegmentsnum] 参数说明: * crawldb: crawldb的相对路径 * 阅读全文
posted @ 2011-10-22 22:37 爱开卷360 阅读(694) 评论(0) 推荐(0) 编辑
摘要: 上次我们分析了Inject的整个流程,其中说到了Inject的输出格式是MapSequenceFileOutputFormat,这个格式可以使用一个叫CrawlDbReader的工具来读取和分析。下面我们就来分析一下这个工具有哪些用。1. CrawlDbReader工具的使用方法 在命令行中运行bin/nutch readdb后就可以看到其帮助,实际上这个shell方法调用的正是CrawlDbReader的main方法,这个工具有下面几种使用方法: * bin/nutch <crawldb> -stats -sort 这个方法是在终端中打印所有crawldb的统计信息,加上sort 阅读全文
posted @ 2011-10-22 22:26 爱开卷360 阅读(718) 评论(0) 推荐(0) 编辑
摘要: 1. Inject是干嘛的?在Nutch中Inject是用来把文本格式的url列表注入到抓取数据库中,一般是用来引导系统的初始化。这里的文本格式如下:http://www.nutch.org/\tnutch.score=10\tnutch.fetchInterval=2592000\tuserType=open_source这里的url与其元数据之间用Tab隔开,这里有两个保留的元数据,如下nutch.score : 表示特定url的分数nutch.fetchInterval : 表示特定url的抓取间隔,单位为毫秒Inject注入后生成的数据库为二进制结构,是Hadoop的MapSequen 阅读全文
posted @ 2011-10-22 22:19 爱开卷360 阅读(763) 评论(0) 推荐(0) 编辑
摘要: 1. Nutch 1.3 运行命令的一些介绍 要看Nutch的命令说明,可执行如下命令bin/nutchUsage:nutch[-core]COMMANDwhereCOMMANDisoneof:crawlone-stepcrawlerforintranetsreaddbread/dumpcrawldbconvdbconvertcrawldbfrompre-0.9formatmergedbmergecrawldb-s,withoptionalfilteringreadlinkdbread/dumplinkdbinjectinjectnewurlsintothedatabasegeneratege 阅读全文
posted @ 2011-10-22 22:15 爱开卷360 阅读(1180) 评论(0) 推荐(0) 编辑
摘要: 1. Nutch是什么? Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构2. 在哪里要可以下载到最新的Nutch?在下面地址中可以下载到最新的Nutch 1.3二进制包和源代码http://mirror.bjtu.edu.cn/apache//nutch/3. 如何配置Nutch? 3.1 对下载后的压缩包进行解压,然后cd $HOME/nut 阅读全文
posted @ 2011-10-22 22:06 爱开卷360 阅读(1963) 评论(0) 推荐(0) 编辑
摘要: 目录 Apache Nutch 1.3 学习笔记一 Apache Nutch 1.3 学习笔记二 Apache Nutch 1.3 学习笔记三(Inject) Apache Nutch 1.3 学习笔记三( Inject CrawlDB Reader) Apache Nutch 1.3 学习笔记四(Generate) Apache Nutch 1.3 学习笔记四(SegmentReader分析) Apache Nutch 1.3 学习笔记五(FetchThread) Apache Nutch 1.3 学习笔记五(Fetcher流程) Apache Nutch 1.3 学习笔记六(ParseSe 阅读全文
posted @ 2011-10-22 21:45 爱开卷360 阅读(1226) 评论(0) 推荐(1) 编辑