「笔记」后缀树

写在前面

《关于我把后缀树题数据范围缩小出成模拟赛题让 63 级做并说标算只是一个简单的 Trie 树这件事是否可行》

个人认为后缀树是一种很鸡肋的数据结构。
它能做的 SAM 都能做，构建后缀树都可以直接用 SAM = =
但是简单了解后缀树可以加深对 SA 和 SAM 的理解，这玩意又很简单，我建议简单了解即可。

定义

对于一个字符串 \(S\)，它的后缀树是由其所有后缀 \(S[i:n]\,(1\le i\le n)\) 组成的，经过信息压缩后的 Trie 树。

暴力构建

考虑增量法，暴力枚举原串的每个后缀，将其插入字典树。
本质不同的子串个数最多有 \(O\left(\frac{n^2}{2}\right)\) 个，故节点数最多可能达到 \(O(n^2)\) 级别。
此时使用后缀树与直接枚举原串的子串等价，复杂度为 \(O(n^2)\) 级别。

Ukkonen

可以在线性时间复杂度内构建后缀树。

构建后缀树的常用算法，推荐阅读这篇博文进行学习：炫酷后缀树魔术 _ EternalAlexander的博客。

虚树 + SA

虽然节点数可能达到 \(O(n^2)\) 级别，但只有 \(n\) 个后缀，终止状态数仅有 \(n\) 个。
大部分节点仅有一个孩子，这样的链信息可以合并。考虑建后缀树的虚树，缩链成边。

前置知识

SA + 虚树。

简单介绍虚树（抄一波课件）：

对于树 \(T=(V,E)\)，给定关键点集 \(S\subseteq V\)，则可定义虚树 \(T'=(V',E')\)。
对于点集 \(V'\subseteq V\)，使得 \(u\in V'\) 当且仅当 \(u\in S\)，或 \(\exist x,y\in S,\operatorname{lca}(x,y)=u\)。
对于边集，\((u,v)\in E'\)，当且仅当 \(u,v\in V'\)，且 \(u\) 为 \(v\) 在 \(V'\) 中深度最浅的祖先。

个人理解：
仅保留关键点及其 lca，缩链成边。
可能删去一些不包含关键点的子树。压缩了树的信息，同时丢失了部分树的信息。
显然，一棵后缀树的关键点即其 \(n\) 个终止状态。

一个分叉点会合并至少两个点，当后缀树为完全二叉树时虚树节点数最多，为 \(2n-1\) 个，节点数变为了 \(O(n)\) 级别。

构建方法

假设已知后缀树的结构。
考虑增量法，每次向虚树中添加一个关键点。

先求得 关键节点 的 dfs 序，规定按字典序 dfs，按照 dfs 序添加关键节点。
单调栈维护虚树最右侧的链（上一个关键点与根的链），单调栈中节点深度递增，栈顶一定为上一个关键点。
每加入一个关键点 \(a_i\)，令 \(\operatorname{lca}(a_{i-1},a_i)=w\)。
将栈顶 \(dep_x > dep_w\) 的弹栈，加入 \(w,a_i\)，即为新的右链。特别地，若栈顶存在 \(dep_x=dep_w\)，则不加入 \(w\) 节点。

在此过程中维护每个节点的父节点，在弹栈时进行连边并维护信息，即得虚树。

套 SA

但是后缀树的结构并不已知， ~~已知还建虚树干什么~~ 发现上述过程中并没有用到后缀的性质。
可以总结一下上述建虚树的过程：

求关键点的 dfs 序。
单调栈维护右链。
插入关键节点，求两相邻关键点的 \(\operatorname{lca}\)，比较深度。

对于前两步，关键点 \(i\) 的 dfs 序即为后缀数组中的 \(sa_i\)，可使用 DC3 算法 \(O(n)\) 求得。单调栈的复杂度为 \(O(n)\)。

发现两关键节点代表排名相邻的两后缀。插入 \(sa_i\) 时，\(1\sim \operatorname{lca}\) 的链代表两后缀的最长公共前缀，即 \(\operatorname{lcp}(sa_{i-1}, sa_i)\)。
显然 \(\operatorname{lcp}\) 的长度，同时也是 \(\operatorname{lca}\) 的深度，等于 \(\operatorname{height}_i\)。

\(\operatorname{lca}\) 节点是谁不知道，但这并不妨碍弹栈，弹栈过程只关心节点的深度。
弹栈停止后，若栈顶存在 \(dep_x=\operatorname{lcp}\)，则 \(\operatorname{lca}\) 已在栈中，直接停止弹栈。否则新建一个 \(dep_x=\operatorname{lcp}\) 的节点插入，当做 \(\operatorname{lca}\) 即可。

使用倍增实现 SA，复杂度 \(O(n\log n)\)。使用 DC3 算法复杂度为 \(O(n)\) 级别。

后缀自动机

SAM 的 parent 树是反串的后缀树。
建出反串的 SAM 之后，可以直接得到一棵后缀树。
时间复杂度为 \(O\left(n\left| \sum\right|\right)\) 或 \(O(n\log n)\)。

与 SA 的关系

SA 可以看作由后缀树的所有终止状态按字典序排列得到的数组。
SA 的 \(\operatorname{height}\) 数组可以看做后缀树中相邻两终止状态的 \(\operatorname{lca}\) 的深度，从这个角度上可以更加形象直观地理解 SA 的许多性质。

同时，这也证明了后缀树的适用范围一定比 SA 大。
奈何 SA 配合 \(\operatorname{height}\) 可以实现大部分后缀树的功能，又好写，时间上与后缀树又几乎相同，空间又小，所以我喜欢 SA（

做题的时候可以先直观地从后缀树的角度出发思考，再用 SA 进行实现。
可以避免抽象的思考过程，比较适合我这样的无脑选手（

例题

这里简述使用后缀树求解的思路，以及如何用后缀树和 SA 进行实现。

SP705 SUBST1 - New Distinct Substrings

\(T\) 组数据，每次给定一个字符串，求该字符串本质不同的子串数量。
两个子串本质不同，当且仅当两个子串长度不等，或长度相等但有任意一位不同。
\(1\le T\le 1\le|s|\le 5\times 10^4\)。
280ms，1.46GB。

一种显然的做法是建出后缀树，答案即未压缩信息的后缀树中的节点个数。
在缩链成边的同时维护边中包含的节点个数即可。
总复杂度 \(O(n)\)。

另一种想法是用所有子串的个数 \(\frac{n(n+1)}{2}\) 减去重复子串的个数，显然重复的串一定出现在某两个后缀的公共前缀部分。
考虑后缀树上重复统计部分的位置，有下图所示：

ugly

观察其中的单色区域的形态，可以考虑增量法统计答案，按照字典序依次将所有后缀加入到后缀树中。
考虑加入 \(sa_i\) 后，新增的本质不同的子串的数量，显然即 \(\operatorname{dep}(sa_i) - \operatorname{dep}(\operatorname{lca}(sa_i, sa_{i-1}))\)，代表不作为之前加入的，\(sa_i\) 的前缀的数量。
字典序相邻的节点的 \(lca\) 的深度即为 SA 中的 \(\operatorname{height}\)，则最终答案即：

\[\frac{n(n+1)}{2} - \sum_{i = 2}^{n}\operatorname{height}_i \]

SA 简单实现即可，总复杂度 \(O(n)\sim O(n\log n)\)，依赖于实现。

「AHOI2013」差异

给定一长度为 \(n\) 的字符串 \(S\)，令 \(T_i\) 表示从第 \(i\) 个字符开始的后缀，求：

\[\sum_{1\le i<j\le n}\{\operatorname{len}(T_i) +\operatorname{len}(T_j) - 2\times \operatorname{lcp} (T_i,T_j)\} \]
\(\operatorname{len}(a)\) 表示字符串 \(a\) 的长度，\(\operatorname{lcp}(a,b)\) 表示字符串 \(a,b\) 的最长公共前缀长度。
\(1\le n\le 5\times 10^5\)。
1S，512MB。

这个式子玩意长得就很树上差分。
对于 \(S\) 的后缀树，\(\operatorname{lcp}\) 即为后缀树的 \(\operatorname{lca}\)，则上式等价于后缀树上所有后缀之间的距离之和。
则树上某一点的对答案贡献，即它的 \(\operatorname{dep}\) 乘上以它为 \(\operatorname{lca}\) 的后缀节点的数量。记录子树大小，DP 实现即可。

总复杂度 \(O(n)\) 级别。

写在最后

参考资料：

OI-wiki 虚树
 利用后缀数组构造后缀树_AZUI
IOI2004 国家集训队论文后缀数组许智磊
 炫酷后缀树魔术 _ EternalAlexander的博客

posted @ 2021-01-02 15:04 Luckyblock 阅读(1359) 评论(3) 收藏举报

刷新页面返回顶部

Luckyblock

身与华落，心将香飞

「笔记」后缀树

写在前面

定义

暴力构建

Ukkonen

虚树 + SA

前置知识

构建方法

套 SA

后缀自动机

与 SA 的关系

例题

SP705 SUBST1 - New Distinct Substrings

「AHOI2013」差异

写在最后

公告

Luckyblock

身与华落，心将香飞

「笔记」后缀树

写在前面

定义

暴力构建

Ukkonen

虚树 + SA

前置知识

构建方法

套 SA

后缀自动机

与 SA 的关系

例题

SP705 SUBST1 - New Distinct Substrings

「AHOI2013」 差异

写在最后

公告

「AHOI2013」差异