关于tf-idf的一些总结与思考
1.tf-idf是基于词袋模型的想法(文本向量的长度与整个词典的长度相等)。
2.idf是指的是逆文档率,即表示该单词对于该句话的重要程度,或者说从文档中区分出该句话的特征。因为词频和rank往往是一个幂律,需要抑制那些稀有词的情况,所以需要对于该部分取对数。
3.tf-idf可以用作抽取关键词,但他更偏向于文本分类任务,因为它偏向于表示一个句子的特征。当它被用来对某一领域进行关键词提取时,会因为一些关键词重复出现导致ID很小的问题。
4.tf-idf的改进(视具体任务而定)

上述(1)对与整个文档进行了归一化,即整个文档的tf-idf求和为1。
(2)减少绝对频次, 使用对数化的形式。


浙公网安备 33010602011771号