随笔分类 -  Lucene,Nutch,Hadoop,中文分词

also contains Heritrix,Solr
手机之家架构
摘要:http://www.luanxiang.org/blog/archives/605.html 阅读全文
posted @ 2009-08-24 00:50 shawnliu 阅读(244) 评论(0) 推荐(0)
什么是Hadoop?
摘要:Hadoop是用java写的分布式计算平台。它主要包括了一个分布式文件系统HDFS和一个MapReduce计算模型,这两个模块的设计都是借鉴了 google在分布式系统上的经验。 "Hadoop is a Free Java software framework that supports data intensive distributed applications running on lar... 阅读全文
posted @ 2008-11-21 02:10 shawnliu 阅读(569) 评论(0) 推荐(0)
如何使用.Net来设计一个爬虫系统
该文被密码保护。
posted @ 2008-10-29 01:34 shawnliu 阅读(3976) 评论(39) 推荐(0)
Nutch中MapReduce的分析[zz]
摘要:Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Update ),... 阅读全文
posted @ 2008-06-16 22:41 shawnliu 阅读(781) 评论(0) 推荐(0)
nutch 0.9在Windows下的安装【zz】
摘要:一、环境: 1.操作系统:windowsXp,windows2000+ 2.java1.6,设置JAVA_HOME到环境变量 3.cygwin,当然这个不是必需的,只是nutch提供的脚本只能在shell环境下使用,所以使用cygwin来虚拟shell命令。 4.nutch版本:0.9 5.tomcat:6.0 二、nutch的安... 阅读全文
posted @ 2008-04-20 02:15 shawnliu 阅读(869) 评论(0) 推荐(0)