"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例，

　－　"A"的前缀和后缀都为空集，共有元素的长度为0；

　　－　"AB"的前缀为[A]，后缀为[B]，共有元素的长度为0；

　　－　"ABC"的前缀为[A, AB]，后缀为[BC, C]，共有元素的长度0；

　　－　"ABCD"的前缀为[A, AB, ABC]，后缀为[BCD, CD, D]，共有元素的长度为0；

　　－　"ABCDA"的前缀为[A, AB, ABC, ABCD]，后缀为[BCDA, CDA, DA, A]，共有元素为"A"，长度为1；

　　－　"ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA]，后缀为[BCDAB, CDAB, DAB, AB, B]，共有元素为"AB"，长度为2；

　　－　"ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后缀为[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的长度为0。

"部分匹配"的实质是，有时候，字符串头部和尾部会有重复。比如，"ABCDAB"之中有两个"AB"，那么它的"部分匹配值"就是2（"AB"的长度）。搜索词移动的时候，第一个"AB"向后移动4位（字符串长度-部分匹配值），就可以来到第二个"AB"的位置。

9.1 Knuth-Morris-Pratt KMP String Matching Algorithm

s=aaaaaaab

t=aaab

用基础的逐字符暴力比较算法，假设s的字符串长度是n， t的字符串长度是m。算法的时间复杂度是n*m

t=abcdabc

prefix:
suffix:

在 KMP 算法 中，LPS 是 Longest Prefix Suffix（最长前缀后缀）的缩写。它是 KMP 算法中用于优化匹配过程的核心概念之一。

在计算机科学中，特别是字符串匹配算法（如KMP算法）中，LPS通常指的是**最长公共前后缀（Longest Proper Prefix which is also a Suffix）**数组。

对于字符串 $S$ ，LPS 数组中的第 $i$ 个元素 $LPS[i]$ 表示子字符串 $S[0 \dots i]$ 最长的那个真前缀，同时它也是 $S[0 \dots i]$ 的后缀的长度。

对于字符串 $S = \text{"abaabc"}$ ，我们来计算它的 LPS 数组：

i	字符 S[i]	子字符串 S[0…i]	最长公共前后缀（长度） LPS[i]	解释
0	a	"a"	0	真前缀和后缀都为空。
1	b	"ab"	0	真前缀有："a"；后缀有："b"。没有公共。
2	a	"aba"	1	真前缀有："a", "ab"；后缀有："a", "ba"。最长公共是 "a"，长度为 1。
3	a	"abaa"	1	真前缀有："a", "ab", "aba"；后缀有："a", "aa", "baa"。最长公共是 "a"，长度为 1。
4	b	"abaab"	2	真前缀有："a", "ab", "aba", "abaa"；后缀有："b", "ab", "aab", "baab"。最长公共是 "ab"，长度为 2。
5	c	"abaabc"	0	真前缀有："a", "ab", "aba", "abaa", "abaab"；后缀有："c", "bc", "abc", "aabc", "baabc"。没有公共。

字符串s=abaabaabaca

t=abaabc

第一次匹配失败的时候，i和j分别是多少？

下一次匹配的时候，i和j分别是多少

这个问题考察的是KMP（Knuth-Morris-Pratt）字符串匹配算法的核心机制，特别是匹配失败时的回溯（next/LPS 数组的应用）。

我们使用以下标记：

$S$ : 主字符串（ $\text{"abaabaabaca"}$ ）
$T$ : 模式字符串（ $\text{"abaabc"}$ ）
$i$ : $S$ 字符串的当前匹配位置（指针）
$j$ : $T$ 字符串的当前匹配位置（指针）
$LPS$ 数组: $T$ 模式字符串的最长公共前后缀数组。

这个问题考察的是KMP（Knuth-Morris-Pratt）字符串匹配算法的核心机制，特别是匹配失败时的回溯（next/LPS 数组的应用）。

我们使用以下标记：

$S$ : 主字符串（ $\text{"abaabaabaca"}$ ）
$T$ : 模式字符串（ $\text{"abaabc"}$ ）
$i$ : $S$ 字符串的当前匹配位置（指针）
$j$ : $T$ 字符串的当前匹配位置（指针）
$LPS$ 数组: $T$ 模式字符串的最长公共前后缀数组。

1. 计算 $T$ 的 LPS 数组

首先，我们需要计算模式字符串 $T = \text{"abaabc"}$ 的 LPS 数组（或称 $next$ 数组）：

索引 j	字符 T[j]	前缀 T[0…j]	最长公共前后缀（长度） LPS[j]
0	a	"a"	0
1	b	"ab"	0
2	a	"aba"	1
3	a	"abaa"	1
4	b	"abaab"	2
5	c	"abaabc"	0

$LPS = [0, 0, 1, 1, 2, 0]$

\text{新的 } j = LPS[j-1]

j	T[j]	LPS[j]	nextval[j] 计算
0	a	0	-
1	a	1	$T[1] (\text{'a'}) = T[LPS[1]=1] (\text{'a'})$ ? Yes. $\rightarrow nextval[1] = nextval[LPS[1]] = nextval[1]$ . (循环定义，通常 $nextval[1]=0$ )
2	a	2	$T[2] (\text{'a'}) = T[LPS[2]=2] (\text{'a'})$ ? Yes. $\rightarrow nextval[2] = nextval[LPS[2]] = nextval[2]$ . (循环定义，通常 $nextval[2]=0$ )
3	a	3	$T[3] (\text{'a'}) = T[LPS[3]=3] (\text{'a'})$ ? Yes. $\rightarrow nextval[3] = nextval[LPS[3]] = nextval[3]$ . (循环定义，通常 $nextval[3]=0$ )
4	a	4	$T[4] (\text{'a'}) = T[LPS[4]=4] (\text{'a'})$ ? Yes. $\rightarrow nextval[4] = nextval[LPS[4]] = nextval[4]$ . (循环定义，通常 $nextval[4]=0$ )
5	b	0	$T[5] (\text{'b'}) = T[LPS[5]=0] (\text{'a'})$ ? No. $\rightarrow nextval[5] = LPS[5]$ .

posted @ 2025-10-17 18:12 ChuckLu 阅读(15) 评论(0) 收藏举报

刷新页面返回顶部

Chuck Lu

KMP算法

1. 计算 $T$ 的 LPS 数组

3. 下一次匹配时的 $i$ 和 $j$

1. 为什么需要优化？（LPS 数组的缺陷）

2. LPS 的优化数组（ $nextval$ 数组）

3. 示例： $T = \text{"aaaaab"}$ 的 $nextval$

公告

Chuck Lu

KMP算法

1. 计算 $T$ 的 LPS 数组

3. 下一次匹配时的 $i$ 和 $j$

1. 为什么需要优化？（LPS 数组的缺陷）

2. LPS 的优化数组（$nextval$ 数组）

3. 示例：$T = \text{"aaaaab"}$ 的 $nextval$

公告

2. LPS 的优化数组（ $nextval$ 数组）

3. 示例： $T = \text{"aaaaab"}$ 的 $nextval$