关于tf-idf的一些总结与思考

1.tf-idf是基于词袋模型的想法（文本向量的长度与整个词典的长度相等）。

2.idf是指的是逆文档率，即表示该单词对于该句话的重要程度，或者说从文档中区分出该句话的特征。因为词频和rank往往是一个幂律，需要抑制那些稀有词的情况，所以需要对于该部分取对数。

3.tf-idf可以用作抽取关键词，但他更偏向于文本分类任务，因为它偏向于表示一个句子的特征。当它被用来对某一领域进行关键词提取时，会因为一些关键词重复出现导致ID很小的问题。

4.tf-idf的改进（视具体任务而定）

上述（1）对与整个文档进行了归一化，即整个文档的tf-idf求和为1。

　　（2）减少绝对频次，使用对数化的形式。

posted @ 2019-11-18 11:05 桑荼阅读(932) 评论(2) 收藏举报

刷新页面返回顶部

桑荼