摘要: 1.tf-idf是基于词袋模型的想法(文本向量的长度与整个词典的长度相等)。 2.idf是指的是逆文档率,即表示该单词对于该句话的重要程度,或者说从文档中区分出该句话的特征。因为词频和rank往往是一个幂律,需要抑制那些稀有词的情况,所以需要对于该部分取对数。 3.tf-idf可以用作抽取关键词,但 阅读全文
posted @ 2019-11-18 11:05 桑荼 阅读(917) 评论(2) 推荐(1)