txt mining 2(tf-idf)

#tf-idf

(term frequency inverse document frequency)

1：读取文档

2：分词

3：对文档整理成所需格式

4：计算词频

5：对词频低的词语进行过滤

6：通过语料库建立成词典

7：加载要计算对比的文档

8：将要对比文档转化为系数向量（doc2bow）

9：对向量进一步处理，得到新语料库

10：对新语料库进行处理。（tf-idf进行处理）

11：通过token2id得到特征数

12：系数矩阵相似度，从而建立索引

13：最终相似度结果

posted @ 2017-12-27 17:39 兔子的尾巴_Mini 阅读(185) 评论(0) 收藏举报

刷新页面返回顶部