摘要: 1、距离计算## method for class 'TermDocumentMatrix'dissimilarity(x, y = NULL, method)## method for class 'PlainTextDocument'dissimilarity(x, y = NULL, method)参数说明: x:文档-词矩阵或者文本文档; y:文本文档,仅当x是文本文档时y才是文本文档; method:距离计算方法,所有的method均来自于proxy包,proxy包的文档在这里。method的种类主要有:(1)jaccard:jaccard系数(默认方 阅读全文
posted @ 2012-07-13 15:55 todoit 阅读(4763) 评论(0) 推荐(0)
摘要: 首先需要安装并加载tm包。1、读取文本x = readLines("222.txt")2、建立语料库 > r=Corpus(VectorSource(x)) > r A corpus with 7012 text documents3、语料库输出,保存到硬盘> writeCorpus(r)4、查看语料库> print(r)A corpus with 7012 text documents> summary(r)A corpus with 7012 text documentsThe metadata consists of 2 tag-valu 阅读全文
posted @ 2012-07-13 10:22 todoit 阅读(2800) 评论(0) 推荐(2)