TFiDF java计算文档关键字 lucene

关键词提取的经典算法之一,通过统计的方法,以tfidf值作为衡量一个词在文章中重要程度的标准。

词频(TF)=词在文章中出现的次数/文章总词数

文档频率(DF)= 关键词在整个语料所有文章中出现的次数

倒文本频率(iDF) = 文本频率的倒数

如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。 

TF-iDF

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

posted @ 2019-04-21 20:55  SEC.VIP_网络安全服务  阅读(125)  评论(0编辑  收藏  举报