中文分词算法现状

中文分词算法现在一般分为三类:基于字符串匹配,基于理解,基于统计的分词。 基于字符串匹配分词:机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标注过程相结合的一体化方法。所以常用的有:正向最大匹配,逆向最大匹配,最少切分法。。。实际应用中,将机械分词作为初分手段,利用语言信息提高切分准确率。优先识别具有明显特征的词,以这些词为断点,将原字符串分为较小字符串再机械匹配,以减少匹配错误率;或将分词与词类标注结合。 基于理解分词:分词同时进行句法语义分析等模拟人对句子的理解,包括分词子系统,句法语义系统,总控部分。总控部分协调下,分词字系统可以获得有关词,句子等的句法和语义信息对分词歧义进行判断。需要大量的语言知识信息。 基于统计:相邻的字同时出现的次数越多,越有可能构成一个词语,对语料中的字组频度进行统计,不需要切词字典,但错误率很高。可以考虑:使用基本词典进行关键词分词,使用统计方法识别新词组,两者结合。 语义理解中文分词:解决一词多义问题,为用户建立个性化数据库。 中文分词存在问题:计算机与人对歧义的定义无法统一;字典中未收录的词识别率低。 分词系统判断标准(待解决问题):歧义识别,新词(未登录词)识别。。。 分词模型: N元模型:N=1计算一个分句中所有词语频率的乘积以得到句子的相对频率; N=2根据一转移矩阵,给出每一词语后面出现另一词语的概率--一阶马尔可夫链。(N=2,3,3...对应N阶马尔可夫链)。 最大熵隐马尔可夫模型--基于此模型,再根据字符的一些特征参数来确定字符是单字词还是词语的左边界右边界或中间的词干,从而把分词转化为汉字标记过程。 (中科院作品和有向图结合)多层隐马尔可夫模型---扩展后,可以将模型应用于原则切分,未登录词识别,隐马分词等,低层模型可以帮助高层模型进行排歧。 采用的模型并不是影响分词系统好坏的主要原因,需要将模型的使用,规则和未登录词识别三者有机结合。 匹配法分词: 综合应用前向-后向最大匹配和最小匹配,据词性标注进行消歧,建立规则处理词表无法解决问题。 先用匹配法分词,发现歧义,向前看两词语,对此三个词运用启发式的消歧规则,据规则(最长匹配,词语长度,语素,概率等规则)消除当前词的最佳切分方法。 基于决策树和有向图: (此系统试验结果较好,微软研究院ACL_SIGHAN竞赛作品)将每一词语包括词表词和未登录词都作为节点加入到决策树中,用分析器或动态规划法对构造好的决策树进行分析以找到较正确的切分方法。每一非叶子节点都有一参数与之对应决定它的子节点是作为一个词还是几个词输出。优点在于:词语识别同时它所使用的规则也作为历史树保存下来。 (中科院ACL_SIGHAN作品)将词表词和未登录词看做有向图中的一个结点,并给各边和各点赋予一个权值,分词过程被转化为基于隐马可夫模型求有向图最短路径的问题。 google分词技术由http://www.basistech.com/提供,百度分词自行开发。 中搜分词技术由http://www.hylanda.com(海量科技)提供。 已有中文分词系统: CDWS(the modern written chinese distinguishing word system) CASS---北航 SEG,SEGTAG:清华大学 复旦分词系统--复旦大学; 哈工大分词系统---运用统计方法的纯分词系统,试图将串频统计和词匹配结合; MM系统--杭州大学(改进MM算法); 北大分词系统---北大计算语言研究院 ICTCLAS---中科院(目前较好系统) MicroSoft Research汉语句法分析器中的自动分词系统;

posted on 2013-02-04 22:39  cnjack  阅读(544)  评论(0编辑  收藏  举报

导航