中文分词语言模型的表示方法探讨
===============================================================================
如有需要可以转载,但转载请注明出处,并保留这一块信息,谢谢合作!
部分内容参考互联网,如有异议,请跟我联系!
作者:刀剑笑(Blog:http://blog.csdn.net/jyz3051)
Email:jyz3051 at yahoo dot com dot cn('at'请替换成'@','dot'请替换成'.' )
===============================================================================
关键词:中文分词,中文分词语言模型,二元图,数据结构
在前面的文章中(详细请看"用动态规划建立中文分词的语言模型"),我们给出了中文分词的语言模型以及它的动态规划表示,在本文将为该模型寻求一种表示方法:用二元图(该"二元图"表示法是借鉴中科院计算机研究所的研究成果,我在他们的基础上做了一些改变以符合我们语言模型的要求)。
1、为什么采用二元图表示该语言模型?
观察动态规划的语言模型,你会发现,对于一个待分词的字符串:
1)结点的数量是很难确定的,甚至根本就难以给出完全的结点,因为有未登录词,在分词的过程中我们需要采取不同的策略,不断的发现未登录词,以形成一个完备的结点集合。如上例中:"李胜利"这个结点是没有被发现的,而经过一步"命名实体识别"可能就会把这个结点添加进来。故不能直接采用结点来表示这个字符串,因为结点可能会不断变化,在不同的分词阶段会有不同的集合,不能满足一体化模型的需要;
2)原子系列是稳定的,出现一个字符串,根据原子系列的划分原则,很容易就得到一个统一的原子系列,并且在整个分词过程中,这个原子系列都是稳定不变的;
3)这个路径图中,有且仅有两种元素:边和结点。原子系列是各个结点的"组成成分",而一条边也可以用两个首和尾的结点表示出来。故原子系列是"最小的不可再分的单元",且可以表示路径图中的所有元素。
4)在分词过程中,可能会添加一个未登录词,这时就存在结点和边的更新操作,而结点的操作就是原子的合并与打散操作,边则是结点的连接操作,故院子也是结点和边操作的基础单元。
综上,我将原子系列作为该模型的基本单元,并参考其它学者的研究成果,建立一个二叉图来表示这个动态规划路径图。
2、二元图如何表示该语言模型?
例如:对于原子系列:"S##S李胜利说的确实在理E##E",得到的动态规划路径图如上图所示,结点可能有:"S##S/李/胜/胜利/利/说/的/的确/确/确实/实/实在/在/在理/理E##E",则用二叉图可以表示为:
在该二叉图中,列表示边的尾,该系列有9个原子,另外还有结束标记"E##E",故共有10列;同时,行表示边的首(头),9个原子和一个起始标记"S##S",共有10行。从而得到10*10共100个格子,每个格子表示一条边,如果一个格子里面存在值,则表示该格子的行到列有一条边。例如:格子<1,3>有一个值"李@胜利",表示第一个原子与第三个原子之间存在一条边,该边的首结点对应的原子是"李"(行号对应的原子:第一个原子),尾结点对应的两个原子"胜"、"利"合并得到的一个词语"胜利"。
3、二元图如何表示动态规划问题?
该动态规划问题需要表示两个值:边的可能性和结点的可能性。在该二元图中,如上图所示,每个格子表示一条边,如格子<1,3>表示结点"李"到结点"胜利"的一条边,如果该格子是空白的,表示不存在一条边,从而该格子的值就是改变的可能性,从而很容易的解决了"边"的权重的表示问题。如side(1,3)=0.7,表示边"李@胜利"出现的可能性为0.7。
同上面的表示方法,结点也可以用起始原子编号和结尾原子编号表示,如"胜利"的权重为0.8,则可以表示为node(2,3)=0.8,表示结点"胜利"出现的可能性为0.8。
上面给出了边和结点的表示方法,但是,我们如何建立边和结点的关系,以形成一个网络呢?从上面的二元图可以看出,如结点"胜利"在格子<1,3>中,结点"胜"在格子<1,2>中;并且,每个格子中"@"符号前面仅仅只有一个原子,后面可能存在多个原子,从而可以得到格子<1,3>中的头结点为"A1",尾结点为"A2A3",即格子<i,j>(其中j>=i+1)的头结点为"Ai",尾结点为"Ai+1……Aj"。根据这个规律,我们就可以建立边和结点的关系以形成一个网络,即动态规划网络。
至此,我们就用二元图完整的表示了中文分词的语言模型。
===============================================================================
如有需要可以转载,但转载请注明出处,并保留这一块信息,谢谢合作!
部分内容参考互联网,如有异议,请跟我联系!
作者:刀剑笑(Blog:http://blog.csdn.net/jyz3051)
Email:jyz3051 at yahoo dot com dot cn(‘at’请替换成’@’,’dot’请替换成’.’ )
===============================================================================
浙公网安备 33010602011771号