Hadoop上的中文分词与词频统计实践
摘要:
首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/。小虾的这个统计武侠小说人名热度的段子很有意思,照虎画猫来实践一下。与其不同的地方有: 0)其使用Hadoop Streaming,这里使用MapReduce框架。 1)不同的中文分词方法,这里使用IKAnalyzer,主页在http://code.google.com/p/ik-analyzer/。 2)这里的材料为《射雕英雄传》。哈哈,总要来一些改变。0)使用WordCount源代码,修改其Map,在Map中使用... 阅读全文
posted @ 2012-12-16 19:47
caigen
阅读(13540)
评论(4)
推荐(2)
浙公网安备 33010602011771号