2011年11月10日

一种基于自动机的快速分词方法

摘要: 分词是自然语言处理入门的第一步,我参照导师的论文和写了一个基于自动机的快速分词方法;其主要内容是字典的构建,字典的结构能够决定分词的效率;本系统分词的实现,第一个字的查找采用的是hash,分词的时间复杂度为O(1);第二个字的查找是用二分查找实现的,时间复杂度为1+log2(n);其余部分采用的是顺序查找,整体的时间复杂度跟词的长度有关。实现的框架如下:const int START1 = 0XB0, START2 = 0XA1, END1 = 0XF8, END2 = 0XFF; //不用说,这个对于自然语言处理的人都知道是什么意思;const int MAXWORDLEN = 48; .. 阅读全文

posted @ 2011-11-10 20:02 _Clarence 阅读(236) 评论(0) 推荐(0) 编辑

导航