字符串

开坑待填。

六个月后，yukari1735 准备开始填坑。

全文大概无图！

\(\bold{Manacher}\)

对每个位置 \(i=1,2,\dots,n\) 计算 \(d_i\) 表示以 \(s_i\) 为中心的回文串半径，这里考虑奇数情况，偶数可以简单转化。

这里从 \(1\) 开始向右扫，期间维护两个指针 \((l,r)\) 表示当前找到的右端点最靠右的一个回文串，扫到 \(i\) 时：

\(1.\) 如果 \(i>r\)，那么暴力往外扩。

\(2.\) 如果 \(i\leq r\)，找到 \(i\) 在回文串 \(s_{l,r}\) 中的镜像 \(j=l+r-i\)，我们发现，由于 \(s_{l,r}\) 的对称性，已经计算过的以 \(j\) 为中心的在 \(s_{l,r}\) 内的回文串是复制到 \(i\) 那里了，摒弃掉超过 \(s_{l,r}\) 边界的一块，有 \(d_i\leq \min(r-i,d_j)\)。剩下的部分暴力扩即可。

别忘了维护 \((l,r)\)。

能证明复杂度是线性的。

\(\bold{Hash}\)

哈希函数 \(f\) 将字符串 \(s\) 映射到整数，可以 \(O(1)\) 地判断两个字符串相等。

一般采用多项式哈希方式，即将 \(s\) 看作一个 \(b\) 进制的大数，为 \(f(s)=\sum_{i=1}^ns_i\times b^{n-i}\)。

由于这个数字也比较大，所以我们需要一个模数 \(p\)，发生哈希碰撞的概率为 \(\frac{n-1}{p}\)。

对于取一个子串的哈希，我们处理出 \(s\) 所有前缀的哈希值 \(f_i\)，子串 \(s_{l,r}\) 的哈希值即为 \(f_r-f_l\times b^{r-l+1}\)。

CF985F Isomorphic Strings

对于同构字符串的一个转化是把第 \(i\) 位原来的字符替换为离它上一次出现的距离 \(i-\operatorname{pre}_i\)，然后就可以哈希判等了。

注意判断第一次出现的字符。

\(\bold{Border}\)

对于一个字符串 \(s\)，若 \(s\) 的一个前缀 \(p\) 同时也是 \(s\) 的后缀且 \(p\neq s\)，那么称 \(p\) 为 \(s\) 的一个 \(\text{border}\)。

\(\emptyset\) 也是 \(s\) 的 \(\text{border}\)。\(|\emptyset|=0\)。

记字符串 \(s\) 的 \(\text{border}\) 集合为 \(B(s)\)。

\(\bold{Next}\)

对于一个字符串 \(s\)，\(\mathrm{next}_i\) 定义为 \(s\) 的 \(i\) 前缀 \(s_{1,i}\) 中的最长 \(\text{border}\) 长度（或结尾下标）。形式化一点就是 \(\mathrm{next}_i=\max\{|x|:x\in B(s_{1,i})\}\)。

通过不断地跳 \(\mathrm{next}\) 指针，我们可以遍历 \(s\) 的所有 \(\text{border}\)。因为对于 \(s\) 的两个 \(\text{border}\) \(x,y\ (|x|<|y|)\)，\(x\) 也是 \(y\) 的 \(\text{border}\)。

所以我们可以得到一个求 \(\mathrm{next}\) 的方法：设当前已经求出了 \(s_{1,i}\) 的 \(\mathrm{next}\)，我们直接用上面的方法遍历 \(s_{1,i}\) 的所有 \(\text{border}\)，检查是否有 \(\text{border}\) 可以匹配 \(s_{i+1}\)。

实际上该算法时间复杂度 \(O(|s|)\)。证明，我也不会 qwq！

将每个 \((i,\mathrm{next}_i)\) 作为边建立一棵树 \(T\)，这样的树称为“失配树”。

P5829 【模板】失配树

从 \(p\) 开始通过不断跳 \(\mathrm{next}\) 可以获得一条从 \(p\) 到根的路径，这条路径上的所有的点都对应这一个 \(s_{1,p}\) 的 \(\text{border}\)，并且下标递减。

故 \(s_{1,p},s_{1,q}\) 的最长公共 \(\text{border}\) 就是 \(p,q\) 两条路径的第一个交点，也就是 \(\operatorname{LCA}(p,q)\)。

于是可以倍增处理，时间复杂度 \(O((n+q)\log n)\)。

\(\bold{Period}\)

称 \(p\) 为字符串 \(s\) 的一个周期，仅当 \(s_i=s_{i+p}\) 对于所有 \(1\leq i\leq |s|-p\) 都成立。

考虑 \(s\) 的一个 \(\text{border}\) \(x\)，其对应着一个长度为 \(|s|-|x|\) 的周期。

同样地，一个周期 \(p\) 也对应着 \(s\) 的一个 \(\text{border}\) \(x=s_{1,|s|-p}\)。

也即所有的周期与 \(s\) 的 \(\text{border}\) 存在一一对应的关系，所以我们只需求出 \(B(s)\)。

\(\bold{KMP}\)

在主串 \(t\) 中对单个模式串 \(s\) 进行匹配。时间复杂度 \(O(|t|+|s|)\)。

在匹配到 \(t\) 的第 \(i\) 位时找到一个最长的串 \(p\)，使得其为 \(t_{1,i}\) 的后缀，\(s\) 的前缀，当 \(|p|=|s|\) 时，匹配成功。

首先求出 \(s\) 的 \(\mathrm{next}\)，接着从 \(t\) 的起始位置开始匹配，设当前匹配到 \(t_i\) 和 \(s_j\)，且当前匹配是合法的，那么下一步尝试匹配 \(t_{i+1}\) 和 \(s_{j+1}\)，若成功则 \(i\rightarrow i+1,j\rightarrow j+1\)，继续循环。

否则我们遍历 \(s_{1,j}\) 的所有前缀 \(s_{1,k}\)，若其也为 \(t_{i-j+1,i}\) 的后缀，则尝试匹配 \(s_{k+1}\) 和 \(t_{i+1}\)，由于当前有 \(s_{1,j}=t_{i-j+1,i}\)，所以这些前缀 \(s_{1,k}\) 都为 \(s_{1,j}\) 的 \(\text{border}\)，用跳 \(\mathrm{next}\) 的方法遍历即可。匹配到后令 \(i\rightarrow i+1,j\rightarrow k+1\)，继续循环。

当 \(j=|s|\) 时，匹配成功。

P2375 [NOI2014] 动物园

\(\bold{KMP\ Automaton}\)

\(\text{KMP}\) 算法也可以用自动机来描述，当然，它也是 \(\text{AC}\) 自动机的基础。

我们在模式串 \(s\) 的基础上建立一个确定性有限状态自动机 \(K=(Q,\Sigma,\delta,q_0,q_n)\)，其中状态集合 \(Q\) 表示匹配到 \(s\) 的第几位，\(\Sigma\) 为字符集，初始状态 \(q_0=0\)，结束状态 \(q_n=|s|\)。

接下来构造转移函数

\[\delta(u,c)=\begin{cases} 0, &u=0\and s_{u+1}\neq c\\ u+1, &s_{u+1}=c\\ \delta(\mathrm{next}_u,c), &\text{otherwise} \end{cases}\]

其中 \(u\in Q,c\in \Sigma\)，\(K\) 接受字符串 \(t\) 当且仅当 \(s\) 是 \(t\) 的后缀。

实现时，可以将 \(t\) 从起始处开始沿着转移函数走，若可以走到 \(q_n\) 处则匹配成功。

转移函数可以 \(O(|s||\Sigma|)\) 预处理，匹配时间复杂度 \(O(|t|)\)。

CF808G Anthem of Berland

考虑以 \(t\) 串的 \(\text{KMP}\) 自动机中的状态作为一维状态来进行 \(\text{DP}\)。

设 \(f_{i,j}\) 为字符串长为 \(i\)，在 \(\text{KMP}\) 自动机中的状态为 \(j\) 时的最多匹配个数。

转移时枚举当前状态增加一个字符的后继状态，用 \(f_{i,j}\) 更新它的后继状态，\(f_{i+1,\delta(j,c)}\leftarrow\max\{f_{i+1,\delta(j,c)},f_{i,j}+[\delta(j,c)=|s|]\}\)。注意若 \(s_{i+1}\) 为 ? 则 \(c\) 可以选取字符集中的所有元素，否则只能为 \(s_{i+1}\)。

最终答案即为 \(\max\{f_{|s|,j}\},j\in Q\)。

时间复杂度 \(O(|s||t||\Sigma|)\)，注意到第一维只和上一个有关，所以可以滚动数组将空间优化至 \(O(|t|)\)。

\(\bold{Aho-Corasick\ Automaton}\)

\(\text{Aho-Corasick}\) 自动机简称 \(\text{AC}\) 自动机，可以进行多模式串匹配。

给定若干模式串 \(s_1,s_2,\dots,s_m\)，将其插入一棵 \(\text{Trie}\) \(T\) 中，于是 \(T\) 中的每个节点 \(u\) 都表示了若干个模式串的公共前缀，设这个前缀为 \(p_u\)。注意，这些模式串的任意一个前缀都被 \(T\) 中的一个节点表示。

对每个 \(u\in T\)，定义 \(\mathrm{fail}_u\) 指向一个节点 \(v\)，满足 \(p_v\) 是所有前缀中最长的且为 \(p_u\) 的后缀的串。

我们在 \(T\) 的基础上建立一个确定性有限状态自动机 \(A=(Q,\Sigma,\delta,q_0,F)\)，其中状态集合 \(Q\) 为 \(T\) 中的点，\(\Sigma\) 为字符集，初始状态 \(q_0\) 为 \(T\) 的根 \(r\)，结束状态集合 \(F\) 为所有为模式串结尾的点。

记 \(T\) 中一个节点 \(u\) 通过字符 \(c\) 边达到的儿子为 \(\operatorname{son}(u,c)\)，空节点为 \(\emptyset\)，那么转移函数为

\[\delta(u,c)=\begin{cases} r, &u=r\and \operatorname{son}(u,c)=\emptyset\\ \operatorname{son}(u,c), &\operatorname{son}(u,c)\neq\emptyset\\ \delta(\mathrm{fail}_u,c), &\text{otherwise}\\ \end{cases}\]

\(A\) 接受字符串 \(t\) 当且仅当某些模式串 \(s_i\) 是 \(t\) 的后缀。

和 \(\text{KMP}\) 自动机一样，我们仍可以将 \(t\) 从起始处沿着转移函数走，若走到一个点 \(u\in F\) 则说明有模式串匹配成功了。

对于计算 \(\mathrm{fail}\)，和 \(\mathrm{next}\) 相似，对于一个点 \(u\)，我们发现通过不断地跳 \(\mathrm{fail}\)，仍可以遍历所有满足为任一模式串的前缀且为 \(p_u\) 的后缀的串 \(s\)，并且 \(|s|\) 不断减小，于是我们可以直接跳 \(\mathrm{fail}\) 直到找到一个匹配当前位的串来更新 \(u\) 的 \(\mathrm{fail}\)。

总时间复杂度是 \(O(\sum |s_i|+|T||\Sigma|)\) 的。

P2414 [NOI2011] 阿狸的打字机

朴素的暴力是直接对所有打印出的串建出一个 \(\text{AC}\) 自动机，对于每个询问暴力跳 \(\mathrm{fail}\) 暴力匹配，若跳到 \(x\) 结尾处则答案加一。

考虑将所有 \((\mathrm{fail_u},u),u\in T\) 作为边建立一棵失配树，显然对于一个点 \(u\)，它表示的串 \(p_u\) 是 \(u\) 的子树中的任意一个点表示的串的后缀，并且任意以 \(p_u\) 为后缀的串都在 \(u\) 的子树中。

询问即为求 \(y_{1,i},1\leq i\leq |y|\) 这 \(|y|\) 个前缀中有多少以 \(x\) 为后缀，注意到这 \(|y|\) 个前缀都被 \(\text{Trie}\) 表示出来了，并且是一个点 \(u_y\) 的所有祖先，于是问题转化为求 \(\text{Trie}\) 中的这 \(|y|\) 个点有多少点在 \(\mathrm{fail}\) 树中在 \(x\) 的子树中。

可以把询问离线下来挂在 \(u_y\) 上然后 \(\text{DFS}\) 整棵 \(\text{Trie}\)，维护到一个点时它的所有祖先在 \(\mathrm{fail}\) 树中的点权都是 \(1\)，其余点为 \(0\)，询问即为子树求和，\(\text{DFS}\) 序 + 树状数组即可。

时间复杂度 \(O(n|\Sigma|+(n+q)\log n)\)。

P3041 [USACO12JAN]Video Game G

考虑以 \(\text{AC}\) 自动机中的状态作为一维状态来进行 \(\text{DP}\)。

设 \(f_{i,j}\) 为当前字符串长为 \(i\)，在 \(\text{AC}\) 自动机中的状态为 \(j\) 时的最大分值。

转移时枚举当前状态增加一个字符的后继状态，用 \(f_{i,j}\) 更新它的后继状态 \(f_{i+1,\delta(j,c)}\leftarrow \max\{f_{i+1,\delta(j,c)},f_{i,j}+w(\delta(j,c))\}\) 其中 \(c\in\Sigma\)，\(w(u)\) 为状态 \(u\) 的满足为一个组合技的后缀数量。

然后考虑 \(w(u)\) 怎么求，再从失配树的角度看，\(p_u\) 是所有 \(u\) 的子树中节点表示的串的后缀，那么如果 \(p_u\) 是组合技，子树中所有点的 \(w\) 值 \(+1\)。所以 \(w(u)\) 为 \(u\) 在失配树中所有为组合技的祖先数量，\(\text{DP}\) 一遍即可。

最后答案为 \(\max\{f_{k,q}\},q\in Q\)。

时间复杂度 \(O(k|T||\Sigma|)\)。

2018 ACM-ICPC BEIJING ONSITE H

把 \(T\) 及所有修改了一位的 \(T\) 都插入 AC 自动机中，答案为 \(2^m-(不合法串数)\)。

不合法串数只需要钦定走不到模式串结尾即可。

自动机中点数是 \(O(n^2)\) 的，时间复杂度 \(O(n^2m)\)。

P2603 [ZJOI2008]无序运动

需要想一个好的转换关系把这些点序列转化为如何操作都不变的且能有足够信息匹配一个元素序列，然后就可以跑 \(\text{AC}\) 自动机了。

首先记录每个点 \(C\) 和前两个点 \(A,B\) 形成的夹角 \(\angle ABC=\theta\)，以及 \(\frac{AB}{BC}\)，这样的话可以搞定旋转，放缩，平移。

对于翻转操作，可以发现其它的都没变，夹角镜像了。只需要把每个点的这两种转换都插入 \(\text{AC}\) 自动机里跑匹配即可。

\(\bold{Suffix\ Array}\)

后缀数组是一些东西：我们将 \(s\) 的所有后缀按照字典序排序，\(sa_i\) 表示第 \(i\) 名的后缀起始位置，\(rk_i\) 表示第 \(i\) 个位置的后缀的排名，大概是反函数这样。

可以倍增来 \(O(n\log n)\) 地求一个字符串的后缀数组：倍增一个长度 \(l\)，然后只按照所有后缀的前 \(l\) 个字符来排序，假如我们已经按照前 \(l\) 个字符排好，现在要按照前 \(2l\) 个字符排，那么考虑两个后缀 \(s_{i,n}\) 与 \(s_{j,n}\) 的比较，我们首先比较 \(s_{i,i+l}\)，\(s_{j,j+l}\) 这部分，这是上一层倍增就排好的，如果相同就比较 \(s_{i+l+1,i+2l}\)，\(s_{j+l+1,j+2l}\) 这部分，可以发现这两部分的长度是 \(l\)，也是上一层倍增排好的，因此串间比较是 \(O(1)\) 的，那么直接排序做得到一个 \(O(n\log^2 n)\) 的做法。

\(\bold{bitset}\) 乱搞匹配

考虑一个模式串上的字符 \(t_i\)，若主串上有一个和它相同的字符 \(s_j\)，则 \(s_{j+|t|-i}\) 有可能成为匹配的终点。

那么我们开 \(|\Sigma|\) 个 \(01\) 串 \(Q_a,Q_b,\cdots,Q_z\) 来存储主串上所有字符的存在位置，然后扫一遍模式串，当扫到 \(t_i\) 时，我们把 \(Q_{t_i}\) 整体向后平移 \(|t|-i\) 个位置，此时这个 \(01\) 串所有为 \(1\) 的位置就是所有可能为匹配终点的位置。

于是我们把所有移动过的 \(01\) 串取与和就是答案。

这个东西显然可以用 bitset 搞，做多模式匹配的时间复杂度为 \(O(\frac{|s|\sum|t_i|}{\omega})\)。

\(\bold{Suffix\ Automaton}\)

\(\bold{endpos}\)

对于串 \(s\) 的任意非空子串 \(t\)，记 \(\operatorname{endpos}(t)\) 为 \(s\) 中 \(t\) 的所有结束位置下标。

对于 \(s\) 的任意两个非空子串 \(t_1,t_2(|t_1|\leq|t_2)\)，我们有：

\(t_1\) 是 \(t_2\) 的后缀 \(\Leftrightarrow\) \(\operatorname{endpos}(t_2)\subseteq\operatorname{endpos}(t_1)\)。
\(t_1\) 不是 \(t_2\) 的后缀 \(\Leftrightarrow\) \(\operatorname{endpos}(t_2)\cap\operatorname{endpos}(t_1)=\emptyset\)。

我们按 \(\operatorname{endpos}\) 是否相同把所有子串分为若干等价类。

\(\operatorname{longest}(E)，\operatorname{shortest}(E)\) 表示等价类 \(E\) 中长度最大或最小的串。

\(\operatorname{len}(E)，\operatorname{minlen}(E)\) 表示等价类 \(E\) 中长度最大或最小的串的长度。

那么在一个等价类 \(E\) 中我们有：

\(|t_1|\leq|t_2|\Leftrightarrow\) \(t_1\) 是 \(t_2\) 的后缀。
所有 \(t\in E\) 的大小取值覆盖一个区间 \([\operatorname{minlen}(E),\operatorname{len}(E)]\)。
把一个子串 \(t\in E\) 的所有后缀按照长度降序排序，它们的 \(|\operatorname{endpos}|\) 单调不减，并且小的被大的包含。

等价类的数量是 \(O(|s|)\) 的。

\(\bold{Suffix\ Link}\)

对于串 \(s\) 的任意 \(\operatorname{endpos}\) 等价类 \(E\)，设其中最大的串为 \(t\)，则根据上面第五个性质我们可以找到最长的是 \(t\) 的后缀且和 \(t\) 不属于同一个等价类的串 \(t'\)，设 \(t'\) 所属的等价类为 \(E'\)，则 \(E\) 的后缀链接 \(\operatorname{link}(E)=E'\)，\(\operatorname{minlen}(E)=\operatorname{len}(\operatorname{link}(E))+1\)。

令根 \(r\) 为空节点，钦定所有找不到后缀有另外等价类的点的 \(\operatorname{link}=r\)，那么所有后缀链接构成了一棵树，称为 \(\text{Parent tree}\)。它也有一些性质：

对于一条从根出发的路径 \(p(r,E)\)，任意两个 \(E'\in p(r,E)\) 中的串的取值范围 \([\operatorname{minlen}(E),\operatorname{len}(E)]\) 不交，并且 \(\bigcup_{F\in p(r,E)}[\operatorname{minlen}(F),\operatorname{len}(F)]=[0,\operatorname{len}(E)]\)。
对于一条从根出发的路径 \(p(r,E)\)，\(\bigcup_{F\in p(r,E)}=\) \(\operatorname{longeset}(E)\) 的所有后缀。

\(\bold{Suffix\ Automaton}\)

\(\text{Suffix Automaton}\) 简称 \(\text{SAM}\) 或后缀自动机，它接受主串 \(s\) 的所有后缀，并且是满足这个条件的最小的自动机。

更重要地，它还具有 \(s\) 的所有子串信息，即所有从起始状态到某个状态的路径与 \(s\) 中的所有子串存在唯一的一一对应关系。

一个串 \(s\) 上的 \(\text{SAM}\) 是一个确定性有限状态自动机 \(S=(Q,\Sigma,\delta,q_0,F)\)，其中状态集 \(Q\) 为 \(s\) 中所有的 \(\operatorname{endpos}\) 等价类，也就是一个等价类对应 \(S\) 中的一个状态，\(q_0=\emptyset\)。

转移比较特殊，考虑一个转移 \(\delta(E,c)\)，我们令 \(E'=\{t+c|t\in E\}\)，即为所有 \(E\) 中的串末尾加上一个字符 \(c\) 所构成的集合，若存在另一个等价类 \(F\) 使得 \(E'\subseteq F\)，那么设置 \(\delta(E,c)=F\)，否则 \(\delta(E,c)=\emptyset\)。可以发现，这样的 \(F\) 要么不存在，要么是唯一的。

posted @ 2022-08-16 22:21 八重垣えりか阅读(128) 评论(1) 收藏举报

刷新页面返回顶部

erika's blog

字符串

\(\bold{Manacher}\)

\(\bold{Hash}\)

\(\bold{Border}\)

\(\bold{Next}\)

\(\bold{Period}\)

\(\bold{KMP}\)

\(\bold{KMP\ Automaton}\)

\(\bold{Aho-Corasick\ Automaton}\)

\(\bold{Suffix\ Array}\)

\(\bold{bitset}\) 乱搞匹配

\(\bold{Suffix\ Automaton}\)

\(\bold{endpos}\)

\(\bold{Suffix\ Link}\)

\(\bold{Suffix\ Automaton}\)

公告