2013 年 6月 19 日随笔档案 - 三度空间

2013年6月19日

摘要：接着上文【基于统计的无词典的高频词抽取(一)——后缀数组字典序排序】，本文主要讲解高频子串抽取部分。如果看过上一篇文章的朋友都知道，我们通过快排或基数排序算出了存储后缀数组字典序的PAT数组，以及PAT数组内，每每两个子串的最大公共前缀数组LCP。我们可以通过LCP来计算出一个字符串在语料库中出现的次数。那怎么计算呢？我们先看看下面一个简单的例子：【例】我们还是以上一篇文章中的字符串“abcba”为例，经过对后缀数组字典序排序（过程参照前一篇），可以得到以下的结果：由上图中的PAT和LCP两个数组我们可以知道：“a”的频率为2，“b”的频率为2。计算方式其实很简单，从左扫描LCP数组，如阅读全文

posted @ 2013-06-19 22:58 三度空间阅读(2167) 评论(9) 推荐(1) 编辑

公告