09 2013 档案

摘要:第三章1、nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?2、命令:crawldb1)bin/nutch | grep readNutch提供了3个read命令来读取不同的文件夹下的数据2)bin/nutch readdb data/crawldb -stats (统计url抓去情况,其中的data就是抓去时的自定义的存放数据的地方)3)bin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dump 将统计信息打印到文件中默认是以空行分割开的文字段也可以通过参数进行格式的设定如:bin/nutch readdb 阅读全文
posted @ 2013-09-27 23:08 joy06 阅读(762) 评论(0) 推荐(0)
摘要:第一讲1、通过nutch,诞生了hadoop、tika、gora。2、nutch通过ivy来进行依赖管理(1.2之后)。3、nutch是使用svn进行源代码管理的。4、lucene、nutch、hadoop,在搜索界相当有名。5、ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式(分布式和本地模式)。6、nutch和hadoop是通过什么连接起来的?通过nutch脚本。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。7、nutch入门重点在于分析nutch脚本文件。第 阅读全文
posted @ 2013-09-24 09:52 joy06 阅读(854) 评论(0) 推荐(0)
摘要:(1)具有清楚地思维、表达和写作的能力;(2)具有以批评的方式系统地推理的能力;(3)具有形成概念和解决问题的能力;(4)具有独立思考的能力;(5)具有敢于创新及独立工作的能力;(6)具有与他人合作的能力;(7)具有判断什么意味着彻底理解某种东西的能力;(8)具有辩识重要的东西与琐碎的东西、持久的东西与短暂的东西的能力;(9)熟悉不同的思维方式;(10)具有某一领域知识的深度;(11)具有观察不同学科、文化、理念相关之处的能力;(12)具有一生求学不止的能力 阅读全文
posted @ 2013-09-16 11:45 joy06 阅读(221) 评论(0) 推荐(0)