子序列自动机

照着抄的

介绍

vector 就是自动机。

子序列自动机,是接受且仅接受一个字符串的子序列的自动机,是一个处理子序列的锐利武器。

对于一个字符串 \(S\),我们可以通过使用子序列自动机得到它的每一个子序列,并方便地去维护、查询它们,让人惊喜不已。

相信大家已经知道咋建自动机了。

设字符集为 \(\Sigma\),设 \(S\) 的下标 \(1\sim n\)

我们维护指针 \(to_{i,c}\),其中 \(i\) 是一个下标、\(c\in\Sigma\)。它代表 \(S\) 的第 \(i\) 个位置后,第一个字符 \(c\) 所处的位置。如果 \(i\) 位置后没有 \(c\) 了,我们可以默认它指向 \(n+1\)

我们发现这样的定义让 \(to_{0,c}\) 也有了意义。

而子序列自动机就是这样。点为 \(0\sim n\),对于所有 \(i\in[0,n],c\in\Sigma\),若 \(to_{i,c}\ne n+1\),则从 \(i\)\(to_{i,c}\) 连一条边。

这样,\(0\) 出发的任意一条路径都是一个子序列,而且他们本质不同,且覆盖所有。

本质不同的原因是前文所述的 「第一个」,这样贪心选择子序列不重不漏

\(|\Sigma|\) 较小的时候,我们当然可以这样建立子序列自动机,这样是 \(O(|\Sigma|n)\)

但是 \(|\Sigma|\) 较大时,我们不得不优化:

具体地,我们将每种字符开个 vector,升序存这种字符在 \(S\) 出现的下标。也不用去真的建自动机的边,只要每次跳边时在 vector 二分查找(upper_bound)即可。

所以说 vector 就是自动机。

这样建自动机 \(O(n)\)(若值域需离散化则 \(O(n\log n)\)),但是跳边要带 \(\log\)

例题

P5826 - 【模板】子序列自动机

询问 \(B\) 是否是 \(S\) 的子序列。

注意:第一篇 WYXkk 的题解不是本文所说的子序列自动机,一扶苏一 的题解才是。

直接在自动机上跑即可。

P4608 - [FJOI2016]所有公共子序列问题 & P1819 公共子序列 & P3856 [TJOI2008]公共子串(三倍经验)

求两个字符串 \(S,T\) 的本质不同公共子序列个数。

长度 \(\le 3000\)

相当于在两个自动机上同时跑。

\(f(i,j)\) 为从 \(S_i\)\(T_j\) 开始的公共子序列个数。

设两个的 \(to\) 分别为 \(to,to'\),则

\[f(i,j)=\sum_{c\in\Sigma}f(to_{i,c},to_{j,c}') \]

DP 就做完啦!

posted @ 2022-07-20 20:52  ShaoJia  阅读(692)  评论(0)    收藏  举报