txt mining 2(tf-idf)

#tf-idf

(term frequency  inverse document frequency)

1:读取文档

2:分词

3:对文档整理成所需格式

4:计算词频

5:对词频低的词语进行过滤

6:通过语料库建立成词典

7:加载要计算对比的文档

8:将要对比文档转化为系数向量(doc2bow)

9:对向量进一步处理,得到新语料库

10:对新语料库进行处理。(tf-idf进行处理)

11:通过token2id得到特征数

12:系数矩阵相似度,从而建立索引

13:最终相似度结果

 

posted @ 2017-12-27 17:39  兔子的尾巴_Mini  阅读(183)  评论(0)    收藏  举报