子序列自动机

介绍

~~vector 就是自动机。~~

子序列自动机，是接受且仅接受一个字符串的子序列的自动机，是一个处理子序列的锐利武器。

对于一个字符串 \(S\)，我们可以通过使用子序列自动机得到它的每一个子序列，并方便地去维护、查询它们，让人惊喜不已。

~~相信大家已经知道咋建自动机了。~~

设字符集为 \(\Sigma\)，设 \(S\) 的下标 \(1\sim n\)。

我们维护指针 \(to_{i,c}\)，其中 \(i\) 是一个下标、\(c\in\Sigma\)。它代表 \(S\) 的第 \(i\) 个位置后，第一个字符 \(c\) 所处的位置。如果 \(i\) 位置后没有 \(c\) 了，我们可以默认它指向 \(n+1\)。

我们发现这样的定义让 \(to_{0,c}\) 也有了意义。

而子序列自动机就是这样。点为 \(0\sim n\)，对于所有 \(i\in[0,n],c\in\Sigma\)，若 \(to_{i,c}\ne n+1\)，则从 \(i\) 向 \(to_{i,c}\) 连一条边。

这样，从 \(0\) 出发的任意一条路径都是一个子序列，而且他们本质不同，且覆盖所有。

本质不同的原因是前文所述的 「第一个」，这样贪心选择子序列不重不漏！

当 \(|\Sigma|\) 较小的时候，我们当然可以这样建立子序列自动机，这样是 \(O(|\Sigma|n)\)。

但是 \(|\Sigma|\) 较大时，我们不得不优化：

具体地，我们将每种字符开个 vector，升序存这种字符在 \(S\) 出现的下标。也不用去真的建自动机的边，只要每次跳边时在 vector 二分查找（upper_bound）即可。

~~所以说 vector 就是自动机。~~

这样建自动机 \(O(n)\)（若值域需离散化则 \(O(n\log n)\)），但是跳边要带 \(\log\)。

询问 \(B\) 是否是 \(S\) 的子序列。

注意：第一篇 WYXkk 的题解不是本文所说的子序列自动机，一扶苏一的题解才是。

直接在自动机上跑即可。

求两个字符串 \(S,T\) 的本质不同公共子序列个数。

长度 \(\le 3000\)

相当于在两个自动机上同时跑。

设 \(f(i,j)\) 为从 \(S_i\) 和 \(T_j\) 开始的公共子序列个数。

设两个的 \(to\) 分别为 \(to,to'\)，则

\[f(i,j)=\sum_{c\in\Sigma}f(to_{i,c},to_{j,c}') \]

DP 就做完啦！

posted @ 2022-07-20 20:52 ShaoJia 阅读(703) 评论(0) 收藏举报

刷新页面返回顶部