yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理

随笔分类 -  nutch

摘要:$ antBuildfile: build.xmlTrying to override old definition of task javacivy-probe-antlib:ivy-download:ivy-download-unchecked:ivy-init-antlib:ivy-init: 阅读全文
posted @ 2016-10-26 17:09 xxxxxxxx1x2xxxxxxx 阅读(251) 评论(0) 推荐(0)

摘要:配置nutch(nutch文件夹已在/home目录下)1. 修改系统环境变量sudo gedit /etc/profile//增加#set nutchexport PATH=/home/nutch/runtime/local/bin:$PATH2. 测试(nutch/runtime/local/bi... 阅读全文
posted @ 2016-01-05 17:42 xxxxxxxx1x2xxxxxxx 阅读(178) 评论(0) 推荐(0)

摘要:Nutch网页抓取速度优化Here are the things that could potentially slow down fetching1) DNS setup2) The number of crawlers you have, too many, too few.3) Bandwid... 阅读全文
posted @ 2016-01-05 17:10 xxxxxxxx1x2xxxxxxx 阅读(170) 评论(0) 推荐(0)

摘要:裁剪nutch 8步骤 阅读全文
posted @ 2016-01-05 16:34 xxxxxxxx1x2xxxxxxx 阅读(171) 评论(0) 推荐(0)

摘要:Nutch2.3 编译和安装配置[一]、介绍Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。现在Nutch分为两个版本:1.x和2.x,这两个版本的 主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的... 阅读全文
posted @ 2016-01-05 16:30 xxxxxxxx1x2xxxxxxx 阅读(473) 评论(0) 推荐(0)

摘要:基于 Apache Mahout 构建社会化推荐引擎http://www.ibm.com/developerworks/cn/views/java/libraryview.jsp推荐引擎利用特殊的信息过滤(IF,Information Filtering)技术,将不同的内容(例如电影、音乐、书籍、新... 阅读全文
posted @ 2015-12-23 16:56 xxxxxxxx1x2xxxxxxx 阅读(201) 评论(0) 推荐(0)

摘要:nutch搏斗之一问题描述:在用nutch1.0做generate 包括5亿url的crawldb时,它默认按照64M分块,分成777个map task,在运行的后期出现Could not find taskTracker/jobcache/job_200903231519_0017/attempt... 阅读全文
posted @ 2015-12-23 16:49 xxxxxxxx1x2xxxxxxx 阅读(125) 评论(0) 推荐(0)

摘要:Nutch+HBase当我们为nutch的架构发愁的时候,nutch的开发人员送来了nutchbase。我一些简单的测试表明,在hadoop0.20.1和hbase0.20.2上,稍加修改可以运行起来。它的优点很明显:架构合理.开发者是这样说的,引用自jirahttp://issues.apache... 阅读全文
posted @ 2015-12-23 16:49 xxxxxxxx1x2xxxxxxx 阅读(159) 评论(0) 推荐(0)