学习TF-IDF

一、自动提取关键词
思路1：利用词频term frequency（TF）
的，是等词大量出现，无实际用处，因此可以必须过滤掉，构建停用词表stopwords。

对于文章中的某些常见词，与主题无关，例如中国。显然不应该作为关键词。

思路2：衡量某些词是否为高频词。如果某个词比较少见，但是在这个文章中出现频次较高，
那么很可能这个词反映了这篇文章的主题，因此我们可以拿来作为关键词。统计学上，
利用逆文档频率(Inverse Document Frequency：IDF)作为一个词的权重，用来衡量
这个词的重要性。

将TF与IDF相乘，就得到了我们一个词的TF-IDF值。某个词对文档的重要性越大，那么这个词的
TF-IDF值应该越大。

步骤1：计算TF。TF=某个词在文章中出现的次数/总词数，考虑到文章窗短的不同，此处进行了标准化。
步骤2：计算IDF，这个过程相对于步骤1来说比较繁琐一些，因为必须用多篇文档来衡量。所以首先
　　　　需要构建一个语料库(corpus)。

　　　　IDF = log(语料库的总文档数/包含该词的文档数+1)
　　　　如果某个词很常见，在所有文档中都出现，由上面公式可知，该词的IDF值几乎为0。

步骤3：计算TF-IDF。TF-IDF = TF*IDF

二、利用TF-IDF解决文档相似性问题
首先考虑，什么情况下两个文档比较相似？一般来说，如果两篇文章的关键词出现大体相似，他们表达
的主题也应该类似。

根据一，可以首先挑出每个文档的关键词，然后将这些关键词构成一个集合。根据这个集合，生成每篇
文章的一个向量表示，可以用词频来表示。计算向量的余弦相似度，值越大表示越相似。

参考文章：

TF-IDF与余弦相似性的应用（一）：自动提取关键词

TF-IDF与余弦相似性的应用（二）：找出相似文章

posted on 2013-12-03 23:37 fang0703 阅读(357) 评论(0) 收藏举报

刷新页面返回顶部

Now is best !

学习TF-IDF

导航