随笔分类 -  mahout

摘要:对于文本信息的向量化,Mahout 已经提供了工具类,它基于 Lucene 给出了对文本信息进行分析,然后创建文本向量。mahout提供下面两个命令来将文本转成向量形式(转化成向量后可以聚类):1.mahout seqdirectory:将文本文件转成SequenceFile文件,SequenceF... 阅读全文
posted @ 2015-04-26 19:35 孟想阳光 阅读(348) 评论(0) 推荐(0)
摘要:1.首先在解压缩的mahout文件中可以看到core包,该包是调用mahout api必须引入的jar包,另外,该包里的driver.classes.default.props中记录了每个命令跟调用类的映射对应关系。1.1 打开mahout源码包(可以通过maven部署在elicpse上),分析一下... 阅读全文
posted @ 2015-04-22 09:29 孟想阳光 阅读(379) 评论(0) 推荐(0)
摘要:mahout trainclassifier方法参数详情:mahout testclassifier方法参数详情:本人亲测实验步骤:默认文档需要格式转换,以20news-bydate.tar.gz数据包为例,解压缩http://people.csail.mit.edu/jrennie/20Newsg... 阅读全文
posted @ 2015-04-21 22:32 孟想阳光 阅读(366) 评论(0) 推荐(0)