Now is best !

学习TF-IDF

一、自动提取关键词
思路1:利用词频term frequency(TF)
的,是等词大量出现,无实际用处,因此可以必须过滤掉,构建停用词表stopwords。

对于文章中的某些常见词,与主题无关,例如中国。显然不应该作为关键词。

思路2:衡量某些词是否为高频词。如果某个词比较少见,但是在这个文章中出现频次较高,
那么很可能这个词反映了这篇文章的主题,因此我们可以拿来作为关键词。统计学上,
利用逆文档频率(Inverse Document Frequency:IDF)作为一个词的权重,用来衡量
这个词的重要性。

将TF与IDF相乘,就得到了我们一个词的TF-IDF值。某个词对文档的重要性越大,那么这个词的
TF-IDF值应该越大。

步骤1:计算TF。TF=某个词在文章中出现的次数/总词数,考虑到文章窗短的不同,此处进行了标准化。
步骤2:计算IDF,这个过程相对于步骤1来说比较繁琐一些,因为必须用多篇文档来衡量。所以首先
    需要构建一个语料库(corpus)。

    IDF = log(语料库的总文档数/包含该词的文档数+1)
    如果某个词很常见,在所有文档中都出现,由上面公式可知,该词的IDF值几乎为0。

步骤3:计算TF-IDF。TF-IDF = TF*IDF

二、利用TF-IDF解决文档相似性问题
首先考虑,什么情况下两个文档比较相似?一般来说,如果两篇文章的关键词出现大体相似,他们表达
的主题也应该类似。

根据一,可以首先挑出每个文档的关键词,然后将这些关键词构成一个集合。根据这个集合,生成每篇
文章的一个向量表示,可以用词频来表示。计算向量的余弦相似度,值越大表示越相似。

 

参考文章:

TF-IDF与余弦相似性的应用(一):自动提取关键词

TF-IDF与余弦相似性的应用(二):找出相似文章

posted on 2013-12-03 23:37  fang0703  阅读(347)  评论(0)    收藏  举报

导航