摘要: 1. 没有IDF之前存在的问题 比如TF统计量,停用词“的”在一篇文档中TF值很高,但“的”能代表这篇文档的重点吗?显然不能。因为“的”在很多文档中TF值都很高,具有普遍性,而不能代表某一篇文档的特征。 2. 那么普遍性怎么衡量呢? 看一个term在多少篇文档中出现过。从而有了IDF。 IDF = 阅读全文
posted @ 2021-12-09 13:31 MurphyCheng 阅读(321) 评论(0) 推荐(0)