2013 年 10月 23 日随笔档案 - JimSow

2013年10月23日

关键词提取TF-IDF算法

摘要：原理：1、先给本聚类内的所有文档进行分词，然后用一个字典保存每个词出现的次数2、遍历每个词，得到每个词在所有文档里的IDF值，和在本聚类内出现的次数（TF）相乘的值3、用一个字典(key是词，value是TF*IDF权重)来保存所有的词信息，然后按value对字典排序，最后取权重排名靠前的几个词作为关键词测试输入如下a 奥运拳击入场券基本分罄邹市明夺冠对手浮出水面a 股民要清楚自己的目的a 印花税之股民四季a ASP.NET 自定义控件复杂属性声明持久性浅析a 运动员行李将 “后上先下” 奥运相关人员行李实名制a asp.net 阅读全文

posted @ 2013-10-23 21:27 JimSow 阅读(817) 评论(0) 推荐(0)

中文分词算法笔记

摘要：中文分词基本算法主要分类基于词典的方法、基于统计的方法、基于规则的方法、（传说中还有基于理解的-神经网络-专家系统，按下不表）1、基于词典的方法（字符串匹配，机械分词方法）定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。按照扫描方向的不同：正向匹配和逆向匹配按照长度的不同：最大匹配和最小匹配1.1正向最大匹配思想MM1》从左向右取待切分汉语句的m个字符作为匹配字段，m为大机器词典中最长词条个数。2》查找大机器词典并进行匹配。若匹配成功，则将这个匹配字段作为一个词切分出来。若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作阅读全文

posted @ 2013-10-23 21:02 JimSow 阅读(257) 评论(0) 推荐(0)

JimSow

关键词提取TF-IDF算法

中文分词算法笔记

导航

公告