摘要: 由于最近换了工作,需要熟悉新的工作环境,工作内容也比较多,所以一直没有更新文章,趁着今晚有空,就继续写写这系列的文章。前面两篇,我们已经实现了后缀数组的排序,高频字串的抽取,也初有成效,如下图:接下来,我们就继续对结果进行进一步的精确化,使用子串归并来实现:首先,我先举一个可能不大适合的例子来大概解释一下什么叫做子串归并。假设,某个语料库中,统计到“你”出现了100次,而“你好”也刚好出现了100次,那么,我们舍弃“你”这个结果,保留“你好”;我们为什么这样做呢?从这个简单的例子可以看出,出现“你”子的时候,一定会出现“你好”,那么根据成词的规则,我们保存长的子串(一般来说,子串选取长度在[2 阅读全文
posted @ 2013-07-08 23:54 三度空间 阅读(1988) 评论(5) 推荐(3) 编辑