07 2012 档案
摘要:相对于英文聚类,Mahout进行中文聚类主要注意的就是数据的编码方式和分词器的选择问题。一、数据准备 这里使用复旦大学中文语料(http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15)(PS:这个文本集好像下不到了,推荐另一个语料http://ishare.iask.sina.com.cn/f/22774613.html,2805篇中文文本)我下载的是文本分类语料库(训练),里面一共包含9804篇文档。刚开始在Linux环境下折腾半天,结果总是乱码,结果发现是编码方式的问题。可以使用iconv命令来将GB2312的文件的编码方式
阅读全文
摘要:在Hadoop运行spectralkmeans算法时,出现错误信息如下,但用mahout0.6却可以运行。java.lang.RuntimeException: java.lang.ClassNotFoundException: org.apache.mahout.clustering.spectral.common.AffinityMatrixInputMapperat org.apache.hadoop.conf.Configuration.getClass(Configuration.java:866)at org.apache.hadoop.mapreduce.JobContext.g
阅读全文
浙公网安备 33010602011771号