TF-IDF学习

我们使用词在文本中出现的次数作为特征值,这个特征值我们也称为词权重。除了使用次数,一般还有三种方法:

1.Bool 表示:即词在文本中出现过则记为 1,没出现则记为 0,忽略了词出现的次数。

2. 词频(Term Frequency):就是词在文本中出现的次数 TF

3. TF-IDF

TF-IDF算法

TF(term frequency):词频,某个词在文档中出现的次数,TF 越 大一般来说越重要

DF(document frequency):文档频率,某个词在所有文档中出现 的文档数,DF 越大表示这个词越有可能是常用词,自然也越不重要

IDF(inverse document frequency):逆文档频率,它是 DF 的 倒数,IDF 越大表示该词越少见,也越重要

TF-IDF :TF * IDF,综合了 TF 和 IDF 两个因素来平衡词的重要性

posted @ 2021-05-28 20:53  ICDTAD  阅读(61)  评论(0编辑  收藏  举报