会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
桑荼
博客园
首页
新随笔
联系
订阅
管理
2019年11月18日
关于tf-idf的一些总结与思考
摘要: 1.tf-idf是基于词袋模型的想法(文本向量的长度与整个词典的长度相等)。 2.idf是指的是逆文档率,即表示该单词对于该句话的重要程度,或者说从文档中区分出该句话的特征。因为词频和rank往往是一个幂律,需要抑制那些稀有词的情况,所以需要对于该部分取对数。 3.tf-idf可以用作抽取关键词,但
阅读全文
posted @ 2019-11-18 11:05 桑荼
阅读(917)
评论(2)
推荐(1)
公告