Hadoop上的中文分词与词频统计实践

摘要: 首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/。小虾的这个统计武侠小说人名热度的段子很有意思,照虎画猫来实践一下。与其不同的地方有: 0)其使用Hadoop Streaming,这里使用MapReduce框架。 1)不同的中文分词方法,这里使用IKAnalyzer,主页在http://code.google.com/p/ik-analyzer/。 2)这里的材料为《射雕英雄传》。哈哈,总要来一些改变。0)使用WordCount源代码,修改其Map,在Map中使用... 阅读全文
posted @ 2012-12-16 19:47 caigen 阅读(13540) 评论(4) 推荐(2)

非热点的关键点对程序的影响

摘要: 1)缓存程序中的热点代码可以对程序进行较好的优化。对于程序控制流图中的非热点代码但是是关键路径上的关键点代码对程序有何影响?怎么评价其影响力?2)数据挖掘中的神经网络算法可否应用于程序性质挖掘和程序优化?(神经网络算法向网络流算法的转换或退化?) 阅读全文
posted @ 2012-12-16 13:31 caigen 阅读(163) 评论(0) 推荐(0)