学习TF-IDF
摘要:        
一、自动提取关键词	思路1:利用词频term frequency(TF) 的,是等词大量出现,无实际用处,因此可以必须过滤掉,构建停用词表stopwords。 对于文章中的某些常见词,与主题无关,例如中国。显然不应该作为关键词。	思路2:衡量某些词是否为高频词。如果某个词比较少见,但是在这个文章中出现频次较高, 那么很可能这个词反映了这篇文章的主题,因此我们可以拿来作为关键词。统计学上, 利用逆文档频率(Inverse Document Frequency:IDF)作为一个词的权重,用来衡量 这个词的重要性。 将TF与IDF相乘,就得到了我们一个词的TF-IDF值。某个词对文档...    阅读全文
        posted @ 2013-12-03 23:37 fang0703 阅读(347) 评论(0) 推荐(0)
                    
                
浙公网安备 33010602011771号