摘要:
原理:1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数 2、遍历每个词,得到每个词在所有文档里的IDF值,和在本聚类内出现的次数(TF)相乘的值 3、用一个字典(key是词,value是TF*IDF权重)来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的... 阅读全文
posted @ 2008-08-04 10:14 慧神星 阅读(1454) 评论(0) 推荐(0)
|
摘要:
原理:1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数 2、遍历每个词,得到每个词在所有文档里的IDF值,和在本聚类内出现的次数(TF)相乘的值 3、用一个字典(key是词,value是TF*IDF权重)来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的... 阅读全文
posted @ 2008-08-04 10:14 慧神星 阅读(1454) 评论(0) 推荐(0) |
||