KMP总结

通俗描述

当在B中匹配A时，若在某一位失配，我们需要知道至少要将A往后移多少位才能确保之前匹配的内容仍然匹配（不然匹配肯定无效），而这个偏移量可以由“当前位置A的前缀中，A的非前缀后缀与A的前缀的最大匹配长度”计算出，考虑到在B中的计算过程实际上在计算“B的后缀与A的前缀的最大匹配长度”，两者可以用相似的做法求出，而非前缀性质可由初始化时的错位保证。

基本定义

A：模板串，下标1~n
B：文本串，下标1~m
nxt[i] = max
f[i] = max
nxt[i]的“候选项”：

计算方法

由引理1和引理2，计算nxt[i]时，只要考虑nxt[i-1]+1，nxt[nxt[i-1]]+1，...亦可理解成“A错一位后匹配它自己”

nxt求法

nxt[1]=0;
for(int i=2,j=0;i<=n;i++)
{
    while(j>0&&a[i]!=a[j+1]) j=nxt[j];
    if(a[i]==a[j+1]) j++;
    nxt[i]=j;
}

f求法

for(int i=1,j=0;i<=m;i++)
{
    while(j&&(j==n||b[i]!=a[j+1])) j=nxt[j];
    if(b[i]==a[j+1]) j++;
    f[i]=j;
    if(f[i]==n) { ... }
}

nxt数组的意义

自身定义：nxt[i] = max
可将整个KMP视为一个自动机，nxt数组即为“失配边”

常见用处

单文本单模板字符串匹配
求字符串最小循环元长度（如果有，即为n-nxt[n])

posted @ 2019-08-19 21:02 happyZYM 阅读(129) 评论(0) 收藏举报

刷新页面返回顶部

happyZYM的博客

前进四