2008 年 8月 4 日随笔档案 - 慧神星

2008年8月4日

C#--关键词提取算法

摘要：原理：1、先给本聚类内的所有文档进行分词，然后用一个字典保存每个词出现的次数 2、遍历每个词，得到每个词在所有文档里的IDF值，和在本聚类内出现的次数（TF）相乘的值 3、用一个字典(key是词，value是TF*IDF权重)来保存所有的词信息，然后按value对字典排序，最后取权重排名靠前的... 阅读全文

posted @ 2008-08-04 10:14 慧神星阅读(1461) 评论(0) 推荐(0)

烈火123

公告

C#--关键词提取算法