字符串匹配算法：KMP与BM

字符串匹配算法

朴素思想(暴力)

任何一种问题，我们都习惯先写出暴力做法，然后再去想如何优化。对于字符串匹配也是如此，话不多说，直接上代码，暴力遍历比较。

for (int i = 0; i < n; i ++ )
{
    bool flag = true;
    for (int j = 0; j < n-m+1; j ++ )
    {
        if (text[i + j ] != pattern[j])
        {
            flag=false;
            break;
        }
    }
    if(flag)
        return i;
}

虽然说暴力做法一直是效率低下的代言词，但对于平常使用来说，这种做法就已经够用了。因为在实际开发中，大部分情况下的主串和模式串的长度都不会太长。并且它思路清晰简单，出问题也好修复。实际上一般 string 的查找函数就是这种做法。

但是也不能就会这一招就阿尼陀佛，万事大吉了。总有需要优化的时候，计算机之所以在现代社会有着举足轻重的地位，就在于人在不断思考，并优化它的执行方式。缺少了人的思考，它只是一坨笨的不能再笨的铁而已。

KMP

朴素做法虽然简单，但主串与模式串的指针都要来回移动。我们去书上找东西一般都是一眼扫过去，有没有什么办法可以让主串的指针不往回走，降低比较的趟数？

在上面这个例子中，很明显更快的做法是在第一次匹配失败之后，跳过第二次匹配，进行第三次匹配。也就是说，应该向后移动两格而不是一格。KMP的思想就在于利用已知信息，不把"搜索位置"移回已经比较过的位置，继续向后移。

我们可以利用模式串自身的特点，利用已经匹配过的结果来减少枚举过程，跳过不可能成功的比较，加速匹配过程。画个抽象点的图：

在主串指针不往后退的前提下，我们的模式串指针最多回退到哪里就可以继续进行匹配呢？

如上图，回退之后的字符串肯定是要能与主串匹配成功的。也就是说它与之前的模式串有着交集。从图中可以看到，P串的后缀与P'的前缀相同。那个这个问题：在已有N个匹配成功的结果下，第N+1个字符匹配失败时，模式串应该退回到第？个匹配成功的结果下？也就转换成了：模式串的各个字串中，能使前后缀相等的最大长度是多少？

我们用next数组来存储回退到的下标

虽然说1那里应该等于0，但其实这时候已经退无可退了。所以应该退出循环，让主串指针向前走一位，开始新一轮比较。

利用这个next数组，比如我们比较到下标3的时候发现不匹配，没关系，我们退一步。退一步之后就到了下标1(回退看的next应该是已经匹配成功的那个，也就是看下标2存的是几)，如果这时候还不匹配，那我们就会退回到-1，也就是说，这轮匹配失败了，主串可以往前走了。

看看代码就清楚了

int strStr(string haystack, string needle)
{
	if (!needle.size()) return 0;
	if (!haystack.size()) return -1;
	vector<int> next(needle.size());
	next[0] = -1;
	//求next数组
	for (int i = 1, j = -1; i < needle.size(); i++)
	{
		while (j >= 0 && needle[i]!=needle[j+1])
		{
			//不匹配就退一步看看
			j = next[j];
		}
		if (needle[i] == needle[j + 1])
		{
			//匹配成功就继续往后走
			//看看还能不能匹配成功
			j++;
		}
		next[i] = j;
	}
	//开始匹配
	for (int i = 0, j = -1; i < haystack.size(); i++)
	{
		while (j != -1 && haystack[i] != needle[j+1])
		{
			//不匹配咱就回退
			j = next[j];
		}
		if (haystack[i] == needle[j+1])
		{
			j++;
		}
		if (j == needle.size() - 1)
		{
			return i-j;
		}
	}
	return -1;
}

BM

虽然KMP比较出名，但其实只是因为它比较难懂而已。在效率上有很多的算法都比它要好。现在介绍的BM算法，其效率就要比KMP好上3到4倍。

BM算法包含两部分：坏字符规则和好后缀规则

坏字符规则

BM算法与我们平常接触的字符串比较方法不同，它是按模式串从大到小的顺序，倒着比的。这样做也是有好处的，起码直观上是这样感觉的。就像做算数选择题，出卷老师为了让你花的时间久一点，故意把正确答案放到C跟D上。所以聪明点的做法应该是先算C跟D。这跟这个比较方法有点类似。

考虑下面这张图：

别忘了我们是从模式串最大的开始往后匹配，所以这里先比较了C和D。这个时候，有意思的来了，这个 D 在模式串中就没有出现过，是一个坏字符，有它在的字串可能不匹配。

惹不起还躲不起吗？溜之大吉，模式串直接移动五位，重新匹配。一下移动这么多，是不是特别的爽？

但你千万不要以为只有没在模式串中出现过的才叫坏字符,实际上这个只是从后往前第一个不匹配的字符。一旦发生不匹配，坏字符规则的做法是模式串指针继续往回走，找到第一个与其匹配的字符停止，然后再继续新一轮的匹配。

也就是说，移动的距离等于：当前模式串的下标(Si) - 往回走找到的第一个与当前不匹配字符匹配的下标(Xi)。如果没有找到，则减数为-1。

这么一想，好像用坏字符规则就万事大吉了。但因为实际代码中，我们不会每次不匹配都会往前找，那样太耗费时间，取而代之的是使用散列表纪录不同字符在模式串中“最后出现的位置”,并不是 Si 的位置往前查找的第一个位置，所以可能会出现 Xi 大于 Si 的情况。比如上图的例子，主串"ABABDABABCAB",模式串"ABABC"当从左开始数的一个B不匹配时，找到的A的下标是最后一次在模式串中出现的下标(也就是最后一个a的位置，比A大)。这时候，模式串非但不往前滑动，还回退了。为了解决这个问题，我们需要好后缀来帮忙。(实际上，两个规则都可以独立使用，如果坏字符你是往回遍历而不是保存在散列表里面的话)

好后缀规则

当遇到上图的情况时，我们依然可以用坏字符规则来移动，但这次让我们来看看好后缀是如何工作的？

我们把在主串中已经匹配成功的字符串用 u标记，现在要做的是找到模式串中与其匹配的u*如果找到了，那模式串就滑动到使得u*与u对齐的位置。如果不匹配，~~那么溜之大吉，直接移动一个模式串长度的位置~~。虽然一次移动那么多是很爽，但这样做有可能错过可以匹配的情况。

实际上这里应该跟KMP一样，如果模式串中前缀与好后缀的后缀相同，那么就移动相应位置使其匹配。

双剑合璧

两个规则你都知道了，并且他们都可以独立使用，那么到底该选哪一个呢？

可以参考的建议

如果处理的是字符集很大的字符串匹配问题，那么坏字符规则对内存的消耗会比较多。因为两个规则是独立的，所以可以考虑仅使用好后缀
如果同时使用两个规则，滑动的大小应该是两个规则中最大的那一个，这样可以避免负数的产生

代码实现

如前面所说，坏字符如果每次都在模式串中遍历的话，会对性能造成影响。那么有没有什么高效的办法代替遍历呢？

我们可以将模式串中的每个字符及其下标都存到散列表中，这样就能快速的找到坏字符在模式串的对应下标了。

先打好坏字符规则

private:
    static const int SIZE = 256;
    
    //求bc
    vector<int> getBC(string pattern)
    {
        vector<int> bc(SIZE,-1);
        for (int i = 0; i < pattern.size(); i++)
        {
            int ascii = (int)pattern[i];
            bc[ascii] = i;
        }
        return bc;
    }

    int strStr(string haystack, string needle)
    {
        if (needle.size() == 0) return 0;

        vector<int> bc(SIZE);
        bc = getBC(needle);
        
        int i = 0;
        while (i <= haystack.size() - needle.size())
        {
            int j;
            //别忘了，BM是从后往前匹配哦
            for (j = needle.size() - 1; j >= 0; j--)
            {
                //不等于咱就要去找滑动位置了
                if (haystack[i + j] != needle[j])
                    break;
            }
            if (j < 0)
            {
                //这是匹配成功！我们是从后往前的！！！
                return i;
            }
            //找到模式串中最近的坏字符
            i = i + j - bc[(int)haystack[i + j]];
        }
        return -1;
    }

好后缀稍微麻烦一点，与KMP类似，我们用一个int数组suffix来保存。其下标表示后缀子串的长度。让我们来明确一下要干的事：在好后缀的后缀子串中，查找最长的、能跟模式串前缀子串匹配的后缀子串。所以存储的应该是在模式串中跟好后缀u相匹配的子串u*的起始下标值。

等等！我们好像漏了什么？在模式串中查找跟好后缀匹配的另一个子串，并且在好后缀的后缀子串中，查找最长能跟模式串前缀子串匹配的后缀子串。

suffix数组只能完成前半段话，那前缀子串的问题该如何解决呢？我们只能是再开一个bool数组prefix 来做这件事了。

求这两个数组的方法也十分讨巧，纪录公共后缀子串u*的起始下标为j,如果j==0,说明是前缀字串(因为已经走到尽头了)，prefix为true。代码实现是下面这样：

    //好后缀
    void genGS(string pattern)
    {
        int len = pattern.size();
        for (int i = 0; i < len; i++)
        {
            suffix.push_back(-1);
            prefix.push_back(false);
        }
        for (int i = 0; i < len - 1; i++)
        {
            int j = i;
            //公共后缀u*的长度
            int k = 0;
            while (j >= 0 && pattern[j] == pattern[len - 1 - k])
            {
                j--;
                k++;
                //保存的是在pattern中的起始下标
                suffix[k] = j + 1;
            }
            if (j == -1)
                prefix[k] = true;
        }
    }

现在让我们来把两个规则一起用在字符串匹配上

private:
    static const int SIZE = 256;
    vector<int> bc;
    vector<int> suffix;
    vector<bool> prefix;

    //坏字符
    void getBC(string pattern)
    {
        for (int i = 0; i < SIZE; i++)
        {
            bc.push_back(-1);
        }
        for (int i = 0; i < pattern.size(); i++)
        {
            int ascii = (int)pattern[i];
            bc[ascii] = i;
        }
    }
    //好后缀
    void genGS(string pattern)
    {
        int len = pattern.size();
        for (int i = 0; i < len; i++)
        {
            suffix.push_back(-1);
            prefix.push_back(false);
        }
        for (int i = 0; i < len - 1; i++)
        {
            int j = i;
            //公共后缀u*的长度
            int k = 0;
            while (j >= 0 && pattern[j] == pattern[len - 1 - k])
            {
                j--;
                k++;
                //保存的是在pattern中的起始下标
                suffix[k] = j + 1;
            }
            if (j == -1)
                prefix[k] = true;
        }
    }

    int moveByGS(int j, int len)
    {
        //好后缀长度
        int k = len - 1 - j;
        if (suffix[k] != -1)
            return j - suffix[k] + 1;
        for (int i = j + 2; i < len; i++)
        {
            if (prefix[len = i])
                return i;
        }
        return len;
    }

    int strStr(string haystack, string needle)
    {
        if (needle.size() == 0) return 0;

        getBC(needle);
        genGS(needle);
        int i = 0;
        while (i <= haystack.size() - needle.size())
        {
            int j;
            //别忘了，BM是从后往前匹配哦
            for (j = needle.size() - 1; j >= 0; j--)
            {
                //不等于咱就要去找滑动位置了
                if (haystack[i + j] != needle[j])
                    break;
            }
            if (j < 0)
            {
                //这是匹配成功！我们是从后往前的！！！
                return i;
            }
            //找到模式串中最近的坏字符
            int x =  j - bc[(int)haystack[i + j]];
            
            int y = 0;
            //如果有好后缀
            if (j < needle.size() - 1)
            {
                y = moveByGS(j,needle.size());
            }
            i = i + max(x, y);
        }
        return -1;
    }

posted @ 2020-06-05 11:14 AD_milk 阅读(1549) 评论(0) 收藏举报

刷新页面返回顶部

Loading

AD_milk