2011 年 7月随笔档案 - ljsspace

使用增强型后缀数组(ESA)的文本匹配算法

摘要：设模式串的长度为m，文本的长度为n，使用后缀数组做文本匹配，如果只用后缀表suftab和折半查找算法的复杂度为O(m*logn)；如果使用最长公共前缀表lcptab和折半查找算法，复杂度可以降至O(m+logn)；使用增强型后缀数组(ESA)表childtab，复杂度为O(m)。本文使用复杂度为O(m)的算法，在匹配之前要求先构造SA（下面采用DC3算法构造后缀数组），然后计算出后缀数组的suftab,lcptab和childtab。由于通过childtab可以在O(1)时间复杂度内找到每一个lcp-interval的所有child-interval，因此这跟后缀树的自顶向下匹配模式串的算法阅读全文

posted @ 2011-07-28 00:53 ljsspace 阅读(651) 评论(0) 推荐(0)

压缩存储后缀数组的childtab

摘要：相比后缀树，后缀数组的优势是存储空间小，相关算法效率高。但是若存放childtab还是使用up，down和nextLIndex三个属性，这显然不符合后缀数组节省空间的"第一原则"。幸运的是，可以压缩存储childtab，将三个属性up，down和nextLIndex变成一个一维数组。后缀数组childtab压缩存储的基本思路是保留所有的nextLIndex值（因为nextLIndex没有冗余），将大部分冗余的down值剔除（剩下部分的down值存放到空白的nextLIndex位置中），然后将up值放到空白的nextLIndex位置。首先给出lcp-interval和chil 阅读全文

posted @ 2011-07-26 15:31 ljsspace 阅读(653) 评论(0) 推荐(0)

后缀数组的自底向上（bottom-up）遍历算法

摘要：后缀数组自底向上遍历等价于后缀树的自底向上遍历。由于后缀数组不是树型结构，在遍历时除了SA本身之外还需要额外的信息，这时Suffix Array就是一个增强的后缀数组(Enhanced Suffix Array)了。该算法使用后缀数组的一个增强信息---LCP表，并通过堆栈模拟自底向上的遍历。遍历的结果就是一颗虚拟的lcp-interval树，其中每一个结点对应后缀树的一个内部结点。有些应用中，遍历时需要知道每个结点的孩子信息，因此在下面的实现中提供了两个版本bottomUpTraverseWithoutChildren和bottomUpTraverseWithChildren。需要说明的是，阅读全文

posted @ 2011-07-26 15:28 ljsspace 阅读(634) 评论(0) 推荐(0)

计算后缀数组的LCP(Longest Common Prefix)

摘要：所谓LCP(Longest Common Prefix)是指后缀数组中相邻两个后缀的最长公共前缀的长度。在后缀数组的应用中，LCP是很重要的信息。设后缀数组为SA, 用LCP(i)定义为第SA[i]个后缀和第SA[i-1]个后缀之间的最长公共前缀长度。由于输入文本T的第p个后缀和第p-1个后缀之间存在如下关系：LCP(p) >= LCP(p-1) - 1，因此如果已知第p-1个后缀的LCP(p-1)，那么在计算第p个后缀的LCP(p)时，可以直接跳过第p个后缀的前LCP(p-1)-1个字符，然后在下一个字符位置开始与后缀数组中与p相邻的前一个后缀（设它为文本T的第q个后缀，即q=SA[R 阅读全文

posted @ 2011-07-20 00:24 ljsspace 阅读(1033) 评论(0) 推荐(0)

构造后缀数组的DC3算法实现

摘要：DC3算法(Difference Cover mod 3)是J. Kärkkäinen和P. Sanders在2003年发表的论文 "Simple Linear Work Suffix Array Construction"中描述的线性时间内构造后缀数组的算法。相对Prefix Doubling（前缀倍增）算法而言，虽然它的渐进时间复杂度比较小，但是常数项比较大。DC3算法的思想类似于找中位数的median of medians算法（http://en.wikipedia.org/wiki/Selection_algorithm），它采用分治思想: 先用阅读全文

posted @ 2011-07-19 15:16 ljsspace 阅读(1394) 评论(0) 推荐(0)

使用倍增算法(Prefix Doubling)构造后缀数组

摘要：如果采用对每个后缀排序的方法来生成后缀数组，即使采用快速排序，由于每次比较的对象是字符串（设输入字符串的长度为n），因此每一个比较操作的复杂度不再是常数，而是O(n)，快速排序本身的平均情况下时间复杂度为O(nlgn)，因此总的时间复杂度是O(n^2*lgn)，如果考虑到采用快速排序最坏情况下复杂度为O(n^2)，那么最坏时总的复杂度为O(n^3)，显然在输入串长度很大时这种做法不可取。Prefix Doubling算法（倍增法）是构造后缀数组一个比较实用的算法。其基本思想是先计算出每个后缀的k-前缀的rank值，然后在此基础上计算每个后缀的 2k-前缀rank值，k从1开始。直到每个后缀都阅读全文

posted @ 2011-07-18 10:22 ljsspace 阅读(1370) 评论(0) 推荐(0)

构建后缀树的Ukkonen算法及其实现

摘要：Ukkonen算法（简称ukk算法）是一个online算法，它与mcc算法的一个显著区别是每次只对S的一个前缀生成隐式后缀树(implicit suffix tree)，然后考虑S的下一个字符S[i+1]并将S[0...i+1]的所有后缀加入到上一个阶段中生成的隐式后缀树中，形成一个新的隐式后缀树。最后用一个特殊字符将隐式后缀树自动转换成真实的后缀树。这样ukk的一个最大优点就是不需要事先知道输入字串的全部内容，只需使用增量方式生成后缀树。和mcc算法类似，也是采用压缩存储Trie，以达到节省空间的目的。通过使用implicit extensions和suffix link两大技巧，时间复杂度阅读全文

posted @ 2011-07-10 22:17 ljsspace 阅读(2829) 评论(2) 推荐(2)

求字符串中不含重复字符的最长子串的长度

摘要：原帖：http://topic.csdn.net/u/20100930/02/5064ef5a-b2f4-44b9-8a16-ce2bf83323c0.html?84726题目：求字符串最长不含重复字符的子串长度，如abcbec，就返回3.分析：利用动态规划(DP)原理，设字符串S的长度为n，考虑i...n-1这个后缀中符合条件的子串：首先需要记录两组数据，第一组数据是从i向右找到的最长不含重复字符的子串长度prefixlen[i]，第二组数据是在i...n-1后缀中符合条件的子串之起始和结束位置，分别用maxlenstart[i]和maxlenend[i]表示，注意二组数据满足：maxlen 阅读全文

posted @ 2011-07-09 00:21 ljsspace 阅读(1148) 评论(0) 推荐(0)

AC解 - Life Forms(POJ#3294)

摘要：原题: http://poj.org/problem?id=3294或者：http://acm.nankai.edu.cn/p1312.htmlDescriptionYou may have wondered why most extraterrestrial life forms resemble humans, differing by superficial traits such as height, colour, wrinkles, ears, eyebrows and the like. A few bear no human resemblance; these typical 阅读全文

posted @ 2011-07-05 14:08 ljsspace 阅读(287) 评论(0) 推荐(0)

快速生成后缀树的McCreight算法及其实现

摘要：McCreight 算法(简称mcc算法)是基于蛮力法，即已知输入文本串T的内容（注：Ukkonen算法是online的，所以不要求事先知道T的全部内容），逐步缩短插入到树中的后缀长度，直到将最后一个后缀（等于末尾那个字符）插入到前面已经生成的树中为止。它与蛮力法的区别是，T的最后一个字符必须与前面的n-1 个字符中的任何一个字符不同（n是T的长度），换句话说，T的最后一个字符不属于字母表（希腊字母大写SIGMA）中任何字符，这样生成的Suffix Tree的特点是，所有的后缀都终止于叶子结点，而且每个叶子结点必定对应一个后缀。也就是说，任何内部结点都不会是后缀的终止结点。这个要求是 McCreight算法和Ukkonen算法的假设前提。阅读全文

posted @ 2011-07-03 15:11 ljsspace 阅读(1033) 评论(0) 推荐(0)

ljsspace

07 2011 档案

公告