剑指Offer_#19_正则表达式匹配

剑指offer

Contents

题目
思路分析
解答1：动态规划
代码1：从dp[0][0]开始状态转移
复杂度分析
代码2：从dp[1][1]开始状态转移
解答2：递归
递归思路
递归算法分析
复杂度分析

题目

请实现一个函数用来匹配包含'. '和'*'的正则表达式。模式中的字符'.'表示任意一个字符，而'*'表示它前面的字符可以出现任意次（含0次）。在本题中，匹配是指字符串的所有字符匹配整个模式。例如，字符串"aaa"与模式"a.a"和"ab*ac*a"匹配，但与"aa.a"和"ab*a"均不匹配。

示例 1:

输入:
s = "aa"
p = "a"
输出: false
解释: "a" 无法匹配 "aa" 整个字符串。

示例 2:

输入:
s = "aa"
p = "a*"
输出: true
解释: 因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此，字符串 "aa" 可被视为 'a' 重复了一次。

示例 3:

输入:
s = "ab"
p = ".*"
输出: true
解释: ".*" 表示可匹配零个或多个（'*'）任意字符（'.'）。

示例 4:

输入:
s = "aab"
p = "c*a*b"
输出: true
解释: 因为 '*' 表示零个或多个，这里 'c' 为 0 个, 'a' 被重复一次。因此可以匹配字符串 "aab"。

示例 5:

输入:
s = "mississippi"
p = "mis*is*p*."
输出: false

s可能为空，且只包含从a-z的小写字母。
p可能为空，且只包含从a-z的小写字母以及字符.和*，无连续的 '*'。

思路分析

这题比较难，目前只看了评论区的高赞题解，不能完全掌握，还需要复习。

解答1：动态规划

参考上述题解的代码。
整体思路是动态规划，即把整个大问题分解为一系列小问题，要看整个s和p是否匹配，可以从后往前，分解为判断s的字串与p的字串是否匹配。
以上是从上到下分析问题的过程。
具体编码是从下到上地解决问题。即先解决小问题，依赖小问题，得到大问题的解。
问题关键在于，不同的情况下，状态转移方程不同，需要准确的写出状态转移方程，捋清楚条件判断分支的逻辑。否则必然会出现一些细节上的错误，无法通过测试。

代码1：从dp[0][0]开始状态转移

public class Solution {
    public static boolean isMatch(String s, String p) {
        int n = s.length();//字符串的长度是length()
        int m = p.length();
        //f[i][j]表示的是 “str的前i个字符” 与 “pattern的前j个字符” 是否匹配
        //需要增加1，是因为需要判断A和B的前面0个字符是否匹配
        boolean[][] f = new boolean[n + 1][m + 1];

        for (int i = 0; i <= n; i++) {
            for (int j = 0; j <= m; j++) {
                //分为空pattern和非空pattern两种情况
                if (j == 0) {
                    //i==0&&j==0时，字符串和空模式串可以匹配，f[i][j]=true
                    //反之，空模式串和非空字符串无法匹配,f[i][j]=false
                    f[i][j] = (i == 0);
                } else {         
                    //非空正则分为末尾是 * 或者 非*
                    //不出现*:说明是str和pattern里的字符是一对一的情况
                    if (p.charAt(j - 1) != '*') {//前j个字符的长度是j,其中最后一个字符索引是j - 1
                        if (i > 0 && (s.charAt(i - 1) == p.charAt(j - 1) || p.charAt(j - 1) == '.')) {
                            f[i][j] = f[i - 1][j - 1];
                        }
                    //出现*:说明str和pattern里的字符是二对x的情况（X*对应任意多个X,包括0个X）
                    } else {
                        //末尾是 *，分为有效，无效两种情况（无效也就是说模式串最后的c*匹配到的是0个c）
                        //这里判断 有效/无效 的条件并不明确，所以是将两个分支的结果进行或运算，那么任意一个为true,结果就为true
                        //无效:X*匹配0个字符的情况
                        if (j >= 2) {
                            f[i][j] |= f[i][j - 2];//直接跳过模式串最后的 c* 两个字符
                        }
                        //有效:X*匹配超过1个字符的情况
                        if (i >= 1 && j >= 2 && (s.charAt(i - 1) == p.charAt(j - 2) || p.charAt(j - 2) == '.')) {
                            f[i][j] |= f[i - 1][j];
                        }
                    }
                }
            }
        }
        return f[n][m];
    }
}

复杂度分析

时间复杂度O(mn)
空间复杂度O(mn)
其中m,n是字符串p,s的长度。

代码2：从dp[1][1]开始状态转移

K神的写法，感觉比较便于记忆，和代码1区别：

把第一行的初始化独立了出来，简化了循环体当中的逻辑
循环体的逻辑进行简化，减少了if else语句的嵌套，代码清爽了不少

class Solution {
    public boolean isMatch(String s, String p) {
        int m = s.length() + 1, n = p.length() + 1;
        boolean[][] dp = new boolean[m][n];
        //空字符串可以匹配空模式串
        dp[0][0] = true;
        //初始化第一行，第一行表示的是s == ""的情况，它可以匹配p == ""的情况，或者是X*Y*Z*....的情况
        for(int j = 2; j < n; j += 2)
            dp[0][j] = dp[0][j - 2] && p.charAt(j - 1) == '*';
        for(int i = 1; i < m; i++){
            for(int j = 1; j < n; j++){
                if(p.charAt(j - 1) == '*'){
                    //X*不能匹配到的情况
                    if(dp[i][j - 2]) dp[i][j] = true;
                    //X*匹配到的情况
                    else if(dp[i - 1][j] && s.charAt(i - 1) == p.charAt(j - 2)) dp[i][j] = true;
                    //.*匹配到的情况
                    else if(dp[i - 1][j] && p.charAt(j - 2) == '.') dp[i][j] = true;
                }else{
                    //s[i - 1]匹配到p[j - 1]的情况
                    if(dp[i - 1][j - 1] && s.charAt(i - 1) == p.charAt(j - 1)) dp[i][j] = true;
                    else if(dp[i - 1][j - 1] && p.charAt(j - 1) == '.') dp[i][j] = true;
                }
            }
        }
        return dp[m - 1][n - 1];
    }
}

解答2：递归

参考10. Regular Expression Matching · leetcode
相比于动态规划，递归的代码看上去要简短得多，但是时间复杂度较高。

递归思路

s和p是否匹配的这个问题，可以分解为 第一个字符是否能匹配 && 其余字符串是否能匹配
比较特殊的是x*(x代表任意的字符)出现的情况，可能可以匹配到p中的字符，也可能无法匹配，需要对于这种情况进行单独的分析。

递归算法分析

1. 出口条件：
当模式串已经遍历完的时候，如果字符串已经空了，那说明必然无法匹配。
if(p.isEmpty()) return s.isEmpty();
如果字符串已经遍历完，而模式串还是非空，不一定不能匹配。因为可能模式串当中剩下的是x*(x代表任意的字符)，可以直接被跳过。最后模式串为空，字符串也为空，还是回到了上述的出口条件。
2. 递推关系：
递推关系分析的是递归调用栈的层与层之间的关系。需要分类讨论

A.普通情况：

判断isMatch(String s, String p)当中的s和p的第一个字符是否匹配，得到一个变量firstMatch
判断isMatch(String s, String p)当中第一个字符以外的其他字符是否匹配，即递归调用下一层isMatch(s.substring(1), p.substring(1))
将上述两个结果进行与运算，即可得到最终结果。

B.出现x*(x代表任意的字符)的情况:
即p.length() >= 2 && p.charAt(1) == '*'的情况下，我们需要特殊考虑
x*可能可以匹配到s当中的字符,也有可能匹配不到。

可以匹配到的情况：s的第一个字符就是x，那么就和x*匹配了一次，由于x*还可以继续匹配到任意个x字符，所以递推关系是first_match && isMatch(s.substring(1), p)，p无需改变，而s需要删除第一个已经匹配完了的字符。
无法匹配到的情况：s的第一个字符不是x那么说明x*这一次已经无法匹配到任何字符了。匹配完所有的x字符后，遇到另一个新字符时，就会遇到这种情况。递推关系是isMatch(s, p.substring(2))，无需改变s,只需要跳过p当中的x*两个字符。
在B情况下，递归调用栈会发生分叉，变成一个类似二叉树的结构，只要左子树和右子树中的任意一个结果是True,最终结果就是True。

3. 返回值：
在上述的A,B两种情况下，返回值不同，详见代码。

class Solution {
    public boolean isMatch(String s, String p) {
        if(p.isEmpty()) return s.isEmpty();
        //s和p的第一个字母是否匹配得上
        boolean first_match = (!s.isEmpty() && (p.charAt(0) == s.charAt(0) || p.charAt(0) == '.'));
        if(p.length() >= 2 && p.charAt(1) == '*'){
            //如果这里的*和上一个字母没有匹配到任何一个字符，那么直接跳过这两个字母
            //否则匹配到了元素，那么继续递归调用isMatch(),判断s后面的部分是否还可以匹配上
            //在右半部分，如果first_match是false,因为短路效应，就不会继续递归调用了
            return(isMatch(s, p.substring(2)) || (first_match && isMatch(s.substring(1), p)));
        }else{
            return first_match && isMatch(s.substring(1), p.substring(1));
        }
    }
}

复杂度分析

这个复杂度分析比较麻烦，暂时不知道如何分析。

posted @ 2020-06-24 15:43 Howfar's 阅读(255) 评论(0) 收藏举报

刷新页面返回顶部

Howfar's

剑指Offer_#19_正则表达式匹配

剑指Offer_#19_正则表达式匹配

题目

思路分析

解答1：动态规划

代码1：从dp[0][0]开始状态转移

复杂度分析

代码2：从dp[1][1]开始状态转移

解答2：递归

递归思路

递归算法分析

复杂度分析

公告