tf-idf介绍

TF-IDF 简介

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术，常用于挖掘文章中的关键词。

TF-IDF有两层意思，一层是"词频"（Term Frequency，简称TF），另一层是"逆文档频率"（Inverse Document Frequency，简称IDF）。

词频，某个词出现在所在文档的次数，这里简单理解为词出现的次数越多，越重要，当然排除停用词，就是“的”，“了”，这一类型的修饰词。

\[TF = 某词在文章中出现的次数 \]

考虑到文章有长短之分，为了便于不同文章的比较，进行词频TF标准化：

\[TF = \frac{某词文章中出现的次数}{该文章的总词数} \]

\[IDF = log(\frac{N}{df + 1}) \]

N表示语料库中文章的总数，df表示包含该词的文档数，加 1的作用是为了防止 df = 0的情况
该词出现的次数越多，分母就越大，取对数的值就越小，说明这个词在所有文章中的重要程度就越小

\[TF-IDF = TF \times IDF \]

说明：词的重要性，随着在文档中出现的次数增多变大，随着在所有文档中的出现次数增加而变小

posted @ 2020-08-17 23:35 ahpuched 阅读(1730) 评论(0) 收藏举报

刷新页面返回顶部