浅谈KMP

\(KMP\)算法是一种改进的字符串匹配算法,由\(D.E.Knuth\)\(J.H.Morris\)\(V.R.Pratt\)同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称\(KMP\)算法)。\(KMP\)算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个\(next\)函数,函数本身包含了模式串的局部匹配信息。时间复杂度\(O(m+n)\)

\(next\)数组

\(next\)\(C++11\)的关键字,为了养成良好习惯,接下来写作\(nxt\)

\(nxt\)数组在模式串(就是准备在另一个串里找出它位置的串)上求,\(nxt_i\)表示模式串\([1,i]\)中最长的长度不等于\(i\)的相等的前缀和后缀的长度。

比如\(aaaaa\)\(nxt_5\)就是\(4\)\(abcabc\)\(nxt_2\)\(1\)\(nxt_6\)\(3\)。特别的,\(nxt_1=0\)

模式串的\(nxt\)数组怎么求呢?首先假设我们已经求出了\([1,i-1]\)\(nxt\)。那么\(nxt_i\)就可以由之前的\(nxt\)的到。

\(1\)、令\(j\)等于\(nxt_{i-1}\)

\(2\)、判断\(s[j+1]\)是否等于\(s[i]\),如果相等那么\(nxt_i=nxt_{i-1}+1\),否则我们就令\(j=nxt_j\),继续判断。

3、时间复杂度分析:由于我们每次\(nxt\)数组顶多会被上一个多\(1\),那么总的增加量就是\(O(n)\)的,在\(j=nxt_j\)这个步骤中,总的减少量显然也是不会超过\(O(n)\)的。所以求\(nxt\)数组的时间复杂度是\(O(n)\)的。

模式串匹配

首先我们来看看最暴力的写法。

for(int i=1;i<=n-m+1;i++) {
    bool bo=1;
    for(int j=1;j<=m;j++)
        if(s[i+j-1]!=c[j]) {
            bo=0;break;
		}
    if(bo) {printf("%d\n",i);break;}
}

\(s\)是母串,\(c\)是模式串,这段代码会找到模式串在母串中出现的第一个位置。

由于每次匹配失败之后,到母串的下一个位置都会从头开始扫描模式串,所以这个复杂度是\(O(nm)\)的。

但是假如我们求出了模式串的\(nxt\)数组之后,我们可以记录模式串目前与母串匹配到哪一位来了,如果失配就跳\(nxt\),因为\([1,nxt_i]\)肯定和\([1,i]\)最后\(nxt_i\)位相同,所以我们可以直接从\(nxt_i\)开始重新匹配。由于匹配成功增加的量最多是\(O(n)\)的,减少的量也不会超过\(O(n)\),所以匹配的复杂度就是\(O(n)\)的。

模板题:https://www.luogu.org/problemnew/show/P3375

时间复杂度:\(O(n+m)\)

空间复杂度:\(O(m)\)

代码如下:

#include <cstdio>
#include <cstring>
using namespace std;

const int maxn=1e6+5;

int n,m;
int nxt[maxn];
char s1[maxn],s2[maxn];

void make_nxt() {
	for(int i=2,j=0;i<=m;i++) {
		while(j&&s2[j+1]!=s2[i])j=nxt[j];
		if(s2[j+1]==s2[i])j++;nxt[i]=j;
	}
}

int main() {
	scanf("%s%s",s1+1,s2+1);
	n=strlen(s1+1),m=strlen(s2+1);
	make_nxt();
	for(int j=0,i=1;i<=n;i++) {
		while(j&&s2[j+1]!=s1[i])j=nxt[j];
		if(s2[j+1]==s1[i])j++;
		if(j==m) {printf("%d\n",i-j+1);j=nxt[j];}
	}
	for(int i=1;i<=m;i++)
		printf("%d ",nxt[i]);
	return 0;
}
posted @ 2019-02-26 16:20  AKMer  阅读(271)  评论(0编辑  收藏  举报