关于TF-IDF的一些见解

1 算法介绍

该算法是一种用于资讯检索和资讯探勘的常用加权技术。

该算法是一种统计方法，用以评估一字词对于一个文本集（语料库）中的其中一份文本的重要程度。

注意：字词的重要性随着它在文本中出现的次数成比增加，但同时会随着它在语料库中出现的频率成反比下降。

2 原理

2.1 词频（term frequency, TF）

定义：指给定的词语在该文本中出现的次数。

补充：通常该数字会被归一化（分子一般小于分母，区别于IDF），以防止它偏向长的文本（同一个词在长文本里可能会比短文本有更高的词频，而不管该词重要与否）。

对于在某一特定文本里的词语${t_i}$来说，它的词频可表示为：

\[t{f_{i,j}} = \frac{{{n_{i,j}}}}{{\sum\nolimits_k {{n_{i,j}}} }}\]

式中分子是词语${t_i}$在文本${d_j}$中出现的次数，而分母则是文本${d_j}$中所有字词出现的次数之和。

注：下标$i$对应所有的词，下标$j$对应所有的文本，$i$、$j$表示词$i$在文本$j$中···

2.2 逆向文本频率（inverse document frequency, IDF）

定义：度量一个词语普遍重要程度。

某一特定词语的IDF，可以由总文本数目除以包含该词语之文本数目，再将得到的商取对数得到：

\[id{f_i} = \log \frac{{\left| D \right|}}{{\left| {\left\{ {j:{t_i} \in {d_j}} \right\}} \right|}} \approx \log \frac{{\left| D \right| + 1}}{{\left| {\left\{ {j:{t_i} \in {d_j}} \right\}} \right| + 1}}\]

式中分子代表语料库中的总文件数，分母代表包含词语${t_i}$的文本数目（即${n_{i,j}} \ne 0$的文本数目）。

注：如果该词不在语料库中，就会导致分母为0，故一般采用后者约等处理。（注意这里涉及到平滑化处理，常用的方法：加一法、线性插值法和折扣法）

注：如果包含某个词语的文本越少，也就是分母越小，则IDF值越大，说明该词语具有很好的类区分能力。

2.3 TF-IDF计算

如果某个词语在一篇文章中出现的频率高。并且在其他文章中很少出现，则认为该词语具有很好的类区分能力，适合用于分类。

TF-IDF实际上为：

\[tfid{f_{i,j}} = t{f_{i,j}} \times id{f_i}\]

即某一特征文本内的高词语频率，以及该词语在整个文本集合中的低文本频率，可以产生出高权重的TF-IDF值。因此，TF-IDF倾向于过滤掉常用的词语，保留重要的词语。

3 不足之处

如果某一类文档$C$中包含词语$t$的文本数为$m$，而其他类包含词语$t$的文本数为$k$，显然所有包含词语$t$的文本数$n = m + k$，当$m$大的时候$n$也大，按照公式得到的IDF值会小，就说明词语$t$的类分能力不强。

但实际上，如果一个词语在一个类的文本中频繁出现，则说明该词语能够很好代表这个类的文本特征，这样的词语应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别于其他类文本，这就是IDF的不足之处。

除此外，还有以下不足之处：

对于新词给予一个较大的权重是否合适？
TF-IDF仅仅综合考虑了该词语在文档中的重要程度和文档区分度。
TF-IDF没有考虑特征词在类间的分布。特征选择所选择的特征应该在某类出现多，而其他类出现少，即考察各类的文档频率的差异。如果一个特征词在各类间分布比较均匀，这样的词语对分类基本没有贡献；但是如果一个特征词比较集中地分布在某个类中，而在其它类中几乎不出现，这样的词语却能够很好地代表这个类的特征，而TF-IDF不能区分这两种情况。总而言之，即TF-IDF计算的权重不适用于分类。
TF-IDF没有考虑特征词在类内部文档中的分布情况。在类内部的文档中，如果特征词均匀分布在其中，则这个特征词能够很好地代表这个类的特征，如果只在几篇文档中出现，而在此类的其他文档中不出现，显然这样的特征词不能够代表这个类的特征。

posted @ 2018-10-28 15:47 祁俊辉阅读(1174) 评论(0) 收藏举报

刷新页面返回顶部

祁俊辉