中文分词的功能流程
===============================================================================
如有需要可以转载,但转载请注明出处,并保留这一块信息,谢谢合作!
部分内容参考互联网,如有异议,请跟我联系!
作者:刀剑笑(Blog:http://blog.csdn.net/jyz3051)
Email:jyz3051 at yahoo dot com dot cn('at'请替换成'@','dot'请替换成'.' )
===============================================================================
关键词:中文分词,功能流程,分词步骤
中文分词方法变传统的"分词"过程为"(堆)砌词"的过程,首先将输入的中文文档打散为一系列的短句,将短句打散为原子系列,然后将原子系列"(堆)砌"成词,一般步骤如下图(图)所示,主要包括以下四个步骤:
1 句子切分:
对输入的中文文档进行预处理,得到单个中文短句的集合。
这一步主要是通过标点符号(如逗号、句号、感叹号、问号等),将中文文档进行切分,缩小中文分词的句子长度,降低复杂度,提高准确性。
2 原子切分:
对输入的中文短句进行原子切分,并根据所得的原子系列建立初始的切分词图。
这一步主要是将中文短句变成不可再分的字(或字符)系列,作为中文分词的(堆)砌成词过程的基本单元。原子的类型主要包括:单个汉字、英文单词(或缩写)、由连字符连接的不同单元、由斜线连接的不同单元等,如:
"他购买了一盒Esselte品牌的SHA-PA型号24/6的订书钉",进行原子切分,得到的原子系列为:他、购、买、了、一、盒、Esselte、品、牌、的、SHA-PA、型、号、24/6、的、订、书、钉。
3 堆砌词语:
基于原子系列,从不同视角分别进行中文词语识别,并将各自的堆砌结果添加到切分图中。
这一步完成词语的堆砌过程:将打散的原子系列,从不同的视角分别进行中文词语的识别,为后续的优化选词过程提供基础。在这一步,需要提供两项结果:一项是可能的词语堆砌路径,第二项是这些路径的概率,以代表按照该路径分词的可能性。
在这一步可以融合各种各样的分词思想,如基于字符串的中文分词思想、基于理解的中文分词思想、基于统计的中文分词思想,常常可以经过的操作包括:
(1)词典词识别:将待堆砌的原子系列,按照全切分的方法(将字典中出现过的词语全部切分出来),识别出所有的堆砌路径。对于这个过程的概率分配,可采用两种方法:一种是按照最少分词的思想分配路径的概率,即将该中文短句堆砌成最小数量的中文词语;第二种是按照隐马尔科夫模型(HMM)分配路径的概率;当然,正向(反向)最大匹配字符串方法也可以作为路径概率分配的手段。
(2)未登录词识别:词典未收录的词统称为未登录词。人名、地名、机构名、时间等,常常是未登录词的主要来源,当然网络上出现的新词、缩写、俚语等也是重要的组成部分。下面一一进行介绍:
人名识别:姓氏常常是人名的重要识别标志,可以根据姓氏启动人名识别;
地名、机构名等实体名称的识别:根据常带的后缀、前缀启动这些实体名称的识别是常常采用的手段;
时间识别:根据时间的数值及常用的格式可以很好的识别时间、日期等;
网络新词的识别:只能通过统计手段,不断补充词典来进行了。
(3)统计方法分词:通过对大规模预料的统计训练,将同时出现频率比较高的字组合作为一个可能的词。可以采用局部统计或全局统计;
(4)基于理解的分词:可以根据一些语法、句法等规则,进行分词,给出分词路径;
(5)词性标注:根据词性同现的概率,进行堆砌过程的路径概率修正。
当然,还可以随时容纳其它的分词思想,只要能给出堆砌路径、并给出发生概率就可以在这一步进行融合。
4 分词选优:
基于上一阶段的堆砌路径和各路径的概率,计算得出最可能的堆砌路径,作为最后的分词结果,并输出最终结果。
在这一步,可以将分词选优看作是一个寻找最短路径的问题(采用最少分词数的方法)、概率乘积等方法给出。
===============================================================================
如有需要可以转载,但转载请注明出处,并保留这一块信息,谢谢合作!
部分内容参考互联网,如有异议,请跟我联系!
作者:刀剑笑(Blog:http://blog.csdn.net/jyz3051)
Email:jyz3051 at yahoo dot com dot cn(‘at’请替换成’@’,’dot’请替换成’.’ )
===============================================================================
浙公网安备 33010602011771号