关于tf-idf的一些总结与思考

1.tf-idf是基于词袋模型的想法(文本向量的长度与整个词典的长度相等)。

2.idf是指的是逆文档率,即表示该单词对于该句话的重要程度,或者说从文档中区分出该句话的特征。因为词频和rank往往是一个幂律,需要抑制那些稀有词的情况,所以需要对于该部分取对数。

3.tf-idf可以用作抽取关键词,但他更偏向于文本分类任务,因为它偏向于表示一个句子的特征。当它被用来对某一领域进行关键词提取时,会因为一些关键词重复出现导致ID很小的问题。

4.tf-idf的改进(视具体任务而定)

 

上述(1)对与整个文档进行了归一化,即整个文档的tf-idf求和为1。

  (2)减少绝对频次, 使用对数化的形式。

 

posted @ 2019-11-18 11:05  桑荼  阅读(917)  评论(2)    收藏  举报