2013年10月23日

关键词提取TF-IDF算法

摘要: 原理:1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数2、遍历每个词,得到每个词在所有文档里的IDF值,和在本聚类内出现的次数(TF)相乘的值3、用一个字典(key是词,value是TF*IDF权重)来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词测试输入如下a 奥运 拳击 入场券 基本 分罄 邹市明 夺冠 对手 浮出 水面a 股民 要 清楚 自己 的 目的a 印花税 之 股民 四季a ASP.NET 自定义 控件 复杂 属性 声明 持久性 浅析a 运动员 行李 将 “后 上 先 下” 奥运 相关 人员 行李 实名制a asp.net 阅读全文

posted @ 2013-10-23 21:27 JimSow 阅读(799) 评论(0) 推荐(0)

中文分词算法笔记

摘要: 中文分词基本算法主要分类基于词典的方法、基于统计的方法、基于规则的方法、(传说中还有基于理解的-神经网络-专家系统,按下不表)1、基于词典的方法(字符串匹配,机械分词方法)定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配按照长度的不同:最大匹配和最小匹配1.1正向最大匹配思想MM1》从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。2》查找大机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作 阅读全文

posted @ 2013-10-23 21:02 JimSow 阅读(254) 评论(0) 推荐(0)

导航