2013年10月1日

正向最大匹配中文分词算法

摘要: 中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。 本篇文章主要介绍一下中文分词的一个最基础算法:最大匹配算法(Maximum Matching,以下简称MM算法)。MM算法有两种:一种正向最大匹配,一种逆向最大匹配。● 算法思想 正向最大匹配算法:从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。但这里有一个问题:要做到最大匹配,并不是第一次匹配到就可以切分的。我们... 阅读全文

posted @ 2013-10-01 10:47 JimSow 阅读(1307) 评论(0) 推荐(0)

导航