Now is best !

2013年12月3日

学习TF-IDF

摘要: 一、自动提取关键词 思路1:利用词频term frequency(TF) 的,是等词大量出现,无实际用处,因此可以必须过滤掉,构建停用词表stopwords。 对于文章中的某些常见词,与主题无关,例如中国。显然不应该作为关键词。 思路2:衡量某些词是否为高频词。如果某个词比较少见,但是在这个文章中出现频次较高, 那么很可能这个词反映了这篇文章的主题,因此我们可以拿来作为关键词。统计学上, 利用逆文档频率(Inverse Document Frequency:IDF)作为一个词的权重,用来衡量 这个词的重要性。 将TF与IDF相乘,就得到了我们一个词的TF-IDF值。某个词对文档... 阅读全文

posted @ 2013-12-03 23:37 fang0703 阅读(347) 评论(0) 推荐(0)

导航