tf-idf介绍

TF-IDF 简介

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词。

TF-IDF有两层意思,一层是"词频"(Term Frequency,简称TF),另一层是"逆文档频率"(Inverse Document Frequency,简称IDF)。

TF IDF的计算方法

词频,某个词出现在所在文档的次数,这里简单理解为词出现的次数越多,越重要,当然排除停用词,就是“的”,“了”,这一类型的修饰词。

\[TF = 某词在文章中出现的次数 \]

考虑到文章有长短之分,为了便于不同文章的比较,进行词频TF标准化:

\[TF = \frac{某词文章中出现的次数}{该文章的总词数} \]

\[IDF = log(\frac{N}{df + 1}) \]

N表示语料库中文章的总数,df表示包含该词的文档数, 加 1的作用是为了防止 df = 0的情况
该词出现的次数越多,分母就越大,取对数的值就越小,说明这个词在所有文章中的重要程度就越小

\[TF-IDF = TF \times IDF \]

说明:词的重要性,随着在文档中出现的次数增多变大,随着在所有文档中的出现次数增加而变小

参考文献

[1] https://zhuanlan.zhihu.com/p/31197209(此博文基本来自此文)

posted @ 2020-08-17 23:35  ahpuched  阅读(1502)  评论(0编辑  收藏  举报