随笔分类 - mahout
摘要:对于文本信息的向量化,Mahout 已经提供了工具类,它基于 Lucene 给出了对文本信息进行分析,然后创建文本向量。mahout提供下面两个命令来将文本转成向量形式(转化成向量后可以聚类):1.mahout seqdirectory:将文本文件转成SequenceFile文件,SequenceF...
阅读全文
摘要:1.首先在解压缩的mahout文件中可以看到core包,该包是调用mahout api必须引入的jar包,另外,该包里的driver.classes.default.props中记录了每个命令跟调用类的映射对应关系。1.1 打开mahout源码包(可以通过maven部署在elicpse上),分析一下...
阅读全文
摘要:mahout trainclassifier方法参数详情:mahout testclassifier方法参数详情:本人亲测实验步骤:默认文档需要格式转换,以20news-bydate.tar.gz数据包为例,解压缩http://people.csail.mit.edu/jrennie/20Newsg...
阅读全文

浙公网安备 33010602011771号