中文分词技术

中文分词技术(Chinese Word Segmentation) 指将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规则重新组合成词序列的过程

目前中文分词算法有以下5类：

基于词典的方法
基于统计的方法
基于规则的方法
基于人工智能技术的方法
基于字标注的方法

在业务中，可以使用多种算法进行比较选择，其中比较选择的原则有以下几点：

总词数越少越好
切分单字词的数量越少越好
切分的单个词的字数越多越好
切分结果中非词典的词越少越好

基于词典的方法

其基本原理是按照一定的步长对文档取词，把结果和词典进行匹配，匹配成功则分词成功，否则不予切分。这种方法实现简单，实用性强，最大的缺点就是识别的成功率极大程度受限于词库的完整度

取词的规则和算法有许多，如：

正向最大匹配法
邻近匹配法
逆向最大匹配法
双向最大匹配法
最短路径匹配法
...

最大正向匹配法（Maximun Matching，下文称MM）

其原理是以词库的最大长度为初始长度，窗口为1，从左到右对字符串进行扫描匹配，匹配不成功则减小窗口
其步骤是：

取得词库中最长的词的长度
从左到右截取1得到的长度的字符串
到词典中进行匹配
匹配成功，则把该字符串切分，余下字符串继续进行2操作
匹配不成功，则将该字符串去掉最后一个字，余下字符串继续进行3操作
重复上述过程，直到切分出所有词为止

以“研究生命的起源”为例，假定词典中的词包含有：{研究、研究生、生命、命、的、起源}，切分步骤如下：

研究生  #第一个词匹配成功
命的起
命的
命      #第二个词匹配成功
的起源
的起
的      #第三个词匹配成功
起源    #第四个词匹配成功

匹配结果为：“研究生　命　的　起源”

邻近匹配法（Nearest Nerghbor Matching，下文称NM）

MM在每次匹配过程中都要进行一次二分搜索，算法复杂度太高
NM则是在取到词典中匹配的第一个词后，往词后拼接下一个字，拼接后的新词在从词典中寻找，如果词典中有这个词，则该词一定会在邻近位置
其步骤是：

取字符串第一个字
到词典中进行匹配
匹配不成功，则拼接下一个字，继续进行2过程
匹配成功，则打一个标记，拼接下一个字，继续到词典中匹配，直到拼接后的字符串不在词典中，或者长度大于词典词的最大长度，则终止匹配，取被标记且字符串最多的词
重复上述过程，直到切分出所有词为止

继续以“研究生命的起源”进行分词作为例子，切分步骤如下：

研
研究      #第一个词第一次匹配成功并标记
研究生    #第一个词第二次匹配成功并标记
研究生命  #超过词典中最大长度3，则取词：研究生
命        #第二个词第一次匹配成功，并标记
命的      #第二个词第二次匹配失败，则取词：命
的        #第三个词第一次匹配成功，并标记
的起      #第三个词第二次匹配失败，则取词：的
起源      #第四个词匹配成功

匹配结果为：“研究生　命　的　起源”

逆向最大匹配法（Reverse Maximum Matching Method，下文称RMM）

其原理与MM基本相同，只是扫描方向相反，是从右向左扫描，其步骤差不多，不再赘述。
继续以“研究生命的起源”进行分词作为例子，切分步骤如下：

的起源
起源　　　＃第一个词匹配成功
生命的
命的
的　　　　＃第二个词匹配成功
究生命
生命　　　＃第三个词匹配成功
研究　　　＃第四个词匹配成功

匹配结果为：“研究生　命　的　起源”

双向最大匹配法（Bi-directction Matching Method，下文称Bi-MM）

该方法实际上是一个比较算法，使用MM和RMM切分后再对结果进行比较，按照上文说的比较原则选择其中一个最为结果。
例子“研究生命的起源”中
MM的结果为：研究生命的起源
RMM的结果为：研究生命的起源
词数均为4，单字较少的为RMM，则

匹配结果为：研究生命的起源

最短路径匹配法（Shortest Path Matching Method，下文称SPM）

该方法实际上也是一个比较算法，先找出字符串中所有可能的词，每个词有一个坐标，相邻两个词形成一条边，根据坐标既可以得到距离，找出从起点到终点中所有距离加起来最小的路径，该路径下所包含的词就是切分结果
例子“研究生命的起源”中
所有可以切分的词为：{研究、研究生、生命、命、的、起源}
可能的路径有：“研究生命的起源”、“研究生命的起源”
若按照词典排序后的索引值为坐标，（只是举例，可以根据场景设计坐标方法）
排序后的词典为：{命、生命、的、研究、研究生、起源}
则坐标分别为：{3、1、2、5}和{4、0、2、5}，记录分别为：6、9，
选择距离为6的匹配结果

匹配结果为：研究生命的起源

实际上坐标有很多种算法，可以是二维坐标，并把每个词生成一个特征向量，通过计算向量值达到比较的目的

基于统计的方法

该方法是没有词典的，主要思想是通过计算相邻的字同时出现的次数来决定是否构成词，次数越多越越有可能构成词。
假设识别的文本已经统计好了所有可能的切分词，那么串联这些词的方式就有多种，从维度上理解，即为选择第一个切分词，则下一个切分词也是词的概率。

主要的统计模型有：

N元文法模型（N-gram）
隐马尔科夫模型(Hidden Markov Model, HMM)
最大熵模型(Maximum Entropy，ME)
...

假设字符串S分成m词，则可以简单描述为：S=W₁W₂W₃...W_m
则出现S的概率为：P(S) = P(W₁)P(W₂|W₁)P(W₃|W₁W₂)...P(W_m|W₁W₂...W_m-1) = \(\prod_{i=1}^{m}\)P(W_i|W₁W₂...W_i-1)

结合马尔科夫假设（Markov assumption），W_i 的出现只与之前的 n-1 个词有关：P(W_i|W₁W₂...W_i-1) = P(W_i|W_i-n+1W_i-n+2...W_i-1)
则P(S) =\(\prod_{i=1}^{m}\)P(W_i|W_i-n+1W_i-n+2...W_i-1)

根据公式：

一元模型（n=1，unigram），P(S)=P(W₁)P(W₂)...P(W_i)...P(W_m)
二元模型（n=2，bigram），P(S)=P(W₁)P(W₂|W₁)...P(W_i|W_i-i)...P(W_m|W_m-1)
三元模型（n=3，trigram），P(S)=P(W₁)P(W₂|W₁)P(W₃|W₂W₁)...P(W_i|W_i-i)...P(W_i|W_i-2W_i-1)...P(W_m|W_m-2W_m-1)
... ...

在实践中用的最多的就是bigram和trigram了，而且效果很不错
高于三元的用的很少，因为训练它需要更庞大的语料，而且数据稀疏严重，时间复杂度高，精度却提高的不多

基于规则的方法

其基本思想是针对语义、句法的分析对文本进行分词
具体方法有：

有机状态机
语法约束矩阵
特征词库
...

基于字标注的方法

在2002年之前，自动分词方法基本上是基于词(或词典)的，在此基础上可进一步分成基于规则和基于统计的两大类。第一篇基于字标注(Character-based Tagging)的分词论文发表在2002年第一届SIGHAN研讨会上，当时并未引起学界的重视。一年后，Xue在最大熵(Maximum Entropy，ME)模型上实现的基于字的分词系统参加了Bakeoff-2003的评测，在As语料库的封闭测试项目上获得第二名)，然而其OOV 召回率Roov(0.729)却位居榜首。Xue还在CityU语料库的封闭测试中获得第三名，其Roov(0.670)仍然是该项比赛中最高的。尽管在Bakeoff2003中各种分词技术的优劣尚难分仲伯，但既然未登录词对分词精度的影响比分词歧义至少大5倍以上，我们自然看好这种能获致最高OOV召回的分词方法。这一预测果然在Bakeoff2005上得到了证实。
　　基于字标注的分词系统在Bakeoff-2005上崭露头角。其中Low的系统采用最大熵模型，在四项开放测试中夺得三项冠军(AS，CityU，PKU)和一项亚军(MSRA)。Tseng的系统采用条件随机场模型，在四项封闭测试中取得两项冠军(CityU， MSRA)、一项亚军(PKU)和一项季军(AS)。到了Bakeoff-2006，基于字的分词系统已遍地开花。其中，笔者用条件随机场模型实现的基于字标注的分词系统，在参加的六项分词评测中，夺得四个第一(CityU开放，As开放，As封闭，CTB封闭)和两个第三(CTB开放，CityU封闭)。
　　以往的分词方法，无论是基于规则的还是基于统计的，一般都依赖于一个事先编制的词表(词典)。自动分词过程就是通过词表和相关信息来做出词语切分的决策。与此相反，基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。由于每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位)，假如规定每个字最多只有四个构词位置：即B(词首)，M (词中)，E(词尾)和S(单独成词)，那么下面句子(甲)的分词结果就可以直接表示成如(乙)所示的逐字标注形式：
　　(甲)分词结果：／上海／计划／N／本／世纪／末／实现／人均／国内／生产／总值／五千美元／。
　　(乙)字标注形式：上／B海／E计／B划／E N／S 本／s世／B 纪／E 末／S 实／B 现／E 人／B 均／E 国／B 内／E生／B产／E总／B值／E 五／B千／M 美／M 元／E 。／S
　　首先需要说明，这里说到的“字”不只限于汉字。考虑到中文真实文本中不可避免地会包含一定数量的非汉字字符，本文所说的“字”，也包括外文字母、阿拉伯数字和标点符号等字符。所有这些字符都是构词的基本单元。当然，汉字依然是这个单元集合中数量最多的一类字符。
　　把分词过程视为字的标注问题的一个重要优势在于，它能够平衡地看待词表词和未登录词的识别问题。在这种分词技术中，文本中的词表词和未登录词都是用统一的字标注过程来实现的。在学习架构上，既可以不必专门强调词表词信息，也不用专门设计特定的未登录词(如人名、地名、机构名)识别模块。这使得分词系统的设计大大简化。在字标注过程中，所有的字根据预定义的特征进行词位特性的学习，获得一个概率模型。然后，在待分字串上，根据字与字之间的结合紧密程度，得到一个词位的标注结果。最后，根据词位定义直接获得最终的分词结果。总而言之，在这样一个分词过程中，分词成为字重组的简单过程。然而这一简单处理带来的分词结果却是令人满意的。

posted @ 2020-09-18 17:15 张q 阅读(1431) 评论(0) 收藏举报

刷新页面返回顶部

中文分词技术

基于词典的方法

最大正向匹配法（Maximun Matching，下文称MM）

匹配结果为：“研究生 命 的 起源”

邻近匹配法（Nearest Nerghbor Matching，下文称NM）

匹配结果为：“研究生 命 的 起源”

逆向最大匹配法（Reverse Maximum Matching Method，下文称RMM）

匹配结果为：“研究生 命 的 起源”

双向最大匹配法（Bi-directction Matching Method，下文称Bi-MM）

匹配结果为：研究 生命 的 起源

最短路径匹配法（Shortest Path Matching Method，下文称SPM）

匹配结果为：研究 生命 的 起源

基于统计的方法

基于规则的方法

基于字标注的方法

公告

匹配结果为：“研究生　命　的　起源”

匹配结果为：“研究生　命　的　起源”

匹配结果为：“研究生　命　的　起源”

匹配结果为：研究生命的起源

匹配结果为：研究生命的起源