txt mining 2(tf-idf)
#tf-idf
(term frequency inverse document frequency)
1:读取文档
2:分词
3:对文档整理成所需格式
4:计算词频
5:对词频低的词语进行过滤
6:通过语料库建立成词典
7:加载要计算对比的文档
8:将要对比文档转化为系数向量(doc2bow)
9:对向量进一步处理,得到新语料库
10:对新语料库进行处理。(tf-idf进行处理)
11:通过token2id得到特征数
12:系数矩阵相似度,从而建立索引
13:最终相似度结果