关键词提取TF-IDF算法
摘要:
原理:1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数2、遍历每个词,得到每个词在所有文档里的IDF值,和在本聚类内出现的次数(TF)相乘的值3、用一个字典(key是词,value是TF*IDF权重)来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词测试输入如下a 奥运 拳击 入场券 基本 分罄 邹市明 夺冠 对手 浮出 水面a 股民 要 清楚 自己 的 目的a 印花税 之 股民 四季a ASP.NET 自定义 控件 复杂 属性 声明 持久性 浅析a 运动员 行李 将 “后 上 先 下” 奥运 相关 人员 行李 实名制a asp.net 阅读全文
posted @ 2013-10-23 21:27 JimSow 阅读(799) 评论(0) 推荐(0)
浙公网安备 33010602011771号