KMP算法

KMP算法

KMP算法的核心思想是利用模式串自身的特性,在匹配过程中尽量避免回溯,以提高匹配的效率。它通过构建一个部分匹配表(也称为next数组),来指导匹配过程中模式串的移动位置,从而减少不必要的字符比较。

KMP算法的基本步骤

  • 1.构建部分匹配表(next):遍历模式串,对于每个位置i,找出以位置i结尾的前缀子串和后缀子串的最长公共长度,并将该长度记录在next[i]中。
  • 2.匹配过程:在匹配过程中,使用两个指针i和j分别指向文本串和模式串。当字符匹配时,两个指针同时向后移动;当字符不匹配时,根据分配表,构建部分分配表,将模式串向右移动一定的距离,以减少不必要的比较
  • 当j移动到模式串的末尾时,表示匹配成功;否则匹配失败。
#include <stdio.h>
#include <string.h>

// 构建部分匹配表(next数组)
void buildNext(const char *pattern, int next[]) {
    int len = strlen(pattern); // 获取模式串的长度
    int i = 0, j = -1;
    next[0] = -1; // next[0]初始化为-1,表示不存在更短的相同前缀和后缀

    while (i < len - 1) {
        if (j == -1 || pattern[i] == pattern[j]) { // 如果j为-1(即已经移动到了模式串的开头)或者当前字符匹配
            ++i;
            ++j;
            next[i] = j; // 记录最长相同前缀和后缀的长度
        } else {
            j = next[j]; // 如果当前字符不匹配,根据部分匹配表调整j的位置
        }
    }
}

// KMP匹配算法
int kmp(const char *text, const char *pattern) {
    int lenText = strlen(text); // 获取文本串的长度
    int lenPattern = strlen(pattern); // 获取模式串的长度
    int next[lenPattern]; // 创建部分匹配表

    buildNext(pattern, next); // 构建部分匹配表

    int i = 0, j = 0;
    while (i < lenText && j < lenPattern) {
        if (j == -1 || text[i] == pattern[j]) { // 如果j为-1(即已经移动到了模式串的开头)或者当前字符匹配
            ++i;
            ++j;
        } else {
            j = next[j]; // 如果当前字符不匹配,根据部分匹配表调整j的位置
        }
    }

    if (j == lenPattern) { // 如果j等于模式串长度,说明匹配成功
        return i - j; // 返回匹配成功的起始位置
    } else {
        return -1; // 匹配失败
    }
}

int main() {
    const char *text = "BBC ABCDAB ABCDABCDABDE";
    const char *pattern = "ABCDABD";
    int result = kmp(text, pattern);
    if (result != -1) {
        printf("Pattern found at index %d\n", result);
    } else {
        printf("Pattern not found\n");
    }
    return 0;
}


posted @ 2024-04-18 19:06  不会笑的孩子  阅读(7)  评论(0编辑  收藏  举报