逆文档频率IDF
1. 没有IDF之前存在的问题
比如TF统计量,停用词“的”在一篇文档中TF值很高,但“的”能代表这篇文档的重点吗?显然不能。因为“的”在很多文档中TF值都很高,具有普遍性,而不能代表某一篇文档的特征。
2. 那么普遍性怎么衡量呢?
看一个term在多少篇文档中出现过。从而有了IDF。
IDF = log N/n
其中,N代表文档集的大小;n代表包含term的文档子集的大小。
当n大时,term为一个普遍词,不具有区别性,所以IDF小,term权值小;当n小时,term则可以作为一个很好的判别器,所以IDF大,term权值大。

浙公网安备 33010602011771号