kmp

经过几天断断续续的思考,KMP总算是差不多搞懂了。

主串s和模式串p进行匹配,p在s中出现的位置。

代码如下:

#include <cstdio>
#include <iostream>
using namespace std;
const int N = 10001, M = 100001;
char p[N], s[M];
int ne[N];
int main()
{
    int n,m;
    cin>>n>>p+1>>m>>s+1;
    for(int i = 2, j = 0;i<=n;i++)
    {
        while(j && p[i] != p[j+1]) j = ne[j];
        if(p[i] == p[j+1]) j++;
        ne[i] = j;
    }
    
    for(int i = 1, j = 0;i<=m;i++)
    {
        while(j && s[i] != p[j+1]) j = ne[j];
        if(s[i] == p[j+1]) j++;
        if(j == n)
        {
            cout<<i-n<<" ";
            j = ne[j];
        }
    }
}

首先ne[i]代表模式串中以i为结尾前缀和后缀相等的长度。

p字符串:a a c a a b

ne[i]值: 0 1 0 1  2 0

一位字母前后缀相等的长度为0,因为不能包括自身,所以从2开始。

i = 2, j = 0; p[2] = p[1+1], j = 1; 所以p[2] = 1;

j = 1, p[3] != p[1+1], j = ne[1] = 0; p[3] = 0;

p[4] = p[0+1], j = 1; ne[4] = 1;

p[5] = p[1+1], j = 2; ne[5] = 2;

p[6] != p[3], j = ne[2] = 1, p[6] != p[2], j = ne[1] = 0. i = i + 1 = 7;

模式串p以自己来不断的比较前缀后缀相等,采用双指针的方式,相等那么后移,不相等,那么j不停的前移。

最后一次当j = 0, 虽然没有再进入那个while循环判断,但是在下面的if(p[i] == p[j+1])这里还是会比较了第一个字母,相同那么j = 1, 不相同j还是为0,j = 0;

同样的,当匹配的时候,主串和模式串也是这样的不停的匹配的。

   1  2 3 4 5 6 7 8

s: b a a c a a c a

p:a a c a a b

当i = 1, j = 0, a[i] != p[0+1]的时候,i自增下一次循环,j = 0;

当s[2] = p[0+1], j ++;

一直到s[7] != p[6], 这时候i = 7, j = 5,这时候就 j = ne[j] = ne[5] = 2;因为找到了前缀和后缀相等的长度,所以这时候p模式串就可以直接调过来,s[5] = p[1], s[6] = p[2],这是根据ne数组直接自动可以匹配的,这时候就只需比较:s[7] 与p[2+1],这里相等,所以j ++, i ++,继续往后比较,如果s[7] = d与p[3]不相等的话,那么j = ne[2] = 1, s[7] != p[2], j = ne[1] = 0,这时候跳出while循环,不要以为这里p[1] 和s[7]就不在进行比较了,实际上在下面的if(s[i] == p[j+1]) j++;这里实际上是再进行了一次比较的,如果相等, 那么下一次循环,j = 1, i++,比较的就是s[8] 和p[2]了。如果不相等的话,那么下一次比较就是s[8]和p[1],即从模式串p的第一个字母进行比较。

综上,如果模式串p的前后缀相等的长度越长即ne[]越大,跟s已经匹配的越多的话,那么即使当下一次s[i++] != p[j+1]的话,那么这时也不需要像双重枚举暴力那样,j 从头开始,i回到第一个匹配位置的下一个,如果上面越长,越大,实际上浪费了很多已有的资源空间。i没必要退回,j退回,而且还是通过ne数组来跳跃性的退回,比一位一位笨拙的退回效率高很多。j = n,说明已经匹配完了,因为p[n-1+1] = s[i], j++,这里是先比较匹配,再自增,从1开始的话,那么就是i - n。

 

posted @ 2020-04-12 12:51  龙雪可可  阅读(123)  评论(0编辑  收藏  举报
****************************************** 页脚Html代码 ******************************************