【动态规划】力扣10：正则表达式匹配（So hard）

给你一个字符串 s 和一个字符规律 p，请你来实现一个支持 '.' 和 '' 的正则表达式匹配。
'.' 匹配任意单个字符
'' 匹配零个或多个前面的那一个元素
所谓匹配，是要涵盖整个字符串 s的，而不是部分字符串。
示例1：

输入：s = "aa", p = "a"
输出：false
解释："a" 无法匹配 "aa" 整个字符串。

示例2：

输入：s = "aa", p = "a"
输出：true
解释：因为 '' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此，字符串 "aa" 可被视为 'a' 重复了一次。

示例3：

输入：s = "ab", p = "."
输出：true
解释："." 表示可匹配零个或多个（'*'）任意字符（'.'）。

动态规划 (Dynamic Programming, DP) 是解决此类字符串匹配问题的通用方法。

本题的关键点在于如何理解特殊字符 '*' 的作用：匹配零个或多个前面的那一个元素，可以理解为前一个元素的消除或复制。
特殊字符 '*' 不能单独使用，需跟其前面的那个元素配合使用，为帮助理解，举几个例子：

"a*" 可表示的字符为不同数目的 'a'，包括：
- ""（00 个 'a'）
- "a"（11 个 'a'）
- "aa"（22 个 'a'）
- "aaa"（33 个 'a'）
- ...
".*" 等价于 0\sim k0∼k 个特殊字符 '.'，可表示任何字符。例如，
- ".*" → "." → "a"
- ".*" → "..." → "abc"
"c*a*b" 与 "aab" 和 "aaaab" 均匹配：
- "c*a*b" → "a*b" → "aab"
- "c*a*b" → "a*b" → "aaaab"

一. 状态定义
dp[i][j]： s 的前 i 个字符和 p 的前 j 个字符能否匹配。
二. 状态转移
在进行状态转移时，s 中的字符是固定不变的，我们考虑 p 的第 j 个字符与 s 的匹配情况：

p[j] 是一个小写字母 a-z，则 s[i] 必须也为同样的小写字母方能完成匹配：

\[dp[i][j] = \begin{cases} dp[i-1][j-1], & s[i]=p[j] \\\ False, & s[i] \neq p[j] \end{cases} \]

p[j]= '.'，则 p[j] 一定可以与 s[i] 匹配成功，此时有

\[dp[i][j] = dp[i−1][j−1] \]

p[j]= '*'，则表示可对 p[j] 的前一个字符 p[j−1] 匹配（或理解为复制）任意次（包括 0 次）。
第一个难想出来的点：怎么区分 * 的两种讨论情况
首先给了 '*'，明白 * 的含义是匹配零个或多个前面的那一个元素，所以要考虑他前面的元素 p[j-1]。* 跟着其前一个字符走，前一个能匹配上 s[i]，* 才能有用，前一个都不能匹配上 s[i]，* 也无能为力，只能让前一个字符消失，也就是匹配 0 次前一个字符。
按照 p[j-1] 和 s[i] 是否相等，分为两种情况：
- p[j-1] != s[i] : $ dp[i][j] = dp[i][j-2] $
  这就是前一个字符匹配不上的情况。
  e.g. (ab, abc* )：遇到 * 往前看两个，发现前面 s[i] 的 ab 对 p[j-2] 的 ab 能匹配，虽然后面是 c*，但是可以看做匹配 0 次 c，相当于直接去掉 c*，所以也是 True。注意 (ab, abc**) 是 False。
- p[j-1] == s[i] or p[j-1] == "."：
  - * 前面那个字符，能匹配 s[i]，或者 * 前面那个字符是万能的 '.'
  - 因为 '.*' 就相当于 '. .'，那就只要看前面可不可以匹配就行。
    e.g. (##b , ###b*)或 ( ##b , ### .* ) :只看 ### 后面一定是能够匹配上的。所以要看 b 和 b* 前面那部分 ## 的地方匹不匹配。

第二个难想出来的点：怎么判断前面是否匹配。

dp[i][j] = dp[i-1][j] // 多个字符匹配的情况
or dp[i][j] = dp[i][j-1] // 单个字符匹配的情况
or dp[i][j] = dp[i][j-2] // 没有匹配的情况

看 ### 匹不匹配，不是直接只看 ### 匹不匹配，要综合后面的 b b* 来分析
这三种情况是 or 的关系，满足任意一种都可以匹配上，同时是最难以理解的地方：

dp[i-1][j] 就是看 s 里 b 多不多， ### 和 ###b * 是否匹配，一旦匹配，s 后面再添个 b 也不影响，因为有 * 在，也就是 ###b 和 ###b*也会匹配。
dp[i][j-1] 就是去掉 * 的那部分，###b 和 ###b 是否匹配，比如 qqb qqb。
dp[i][j-2] 就是去掉多余的 b*，p 本身之前的能否匹配，###b 和 ### 是否匹配，比如 qqb qqbb* 之前的 qqb qqb 就可以匹配，那多了的 b* 也无所谓，因为 b* 可以是匹配 0 次 b，相当于 b* 可以直接去掉了。

三种满足一种就能匹配上。
为什么没有 dp[i-1][j-2] 的情况？就是 ### 和 ### 是否匹配？因为这种情况已经是 dp[i][j-1] 的子问题。也就是 s[i] == p[j-1]，则 dp[i-1][j-2] = dp[i][j-1]。

总结：

如果 p.charAt(j) == s.charAt(i) : dp[i][j] = dp[i-1][j-1]；
如果 p.charAt(j) == '.' : dp[i][j] = dp[i-1][j-1]；
如果 p.charAt(j) == '*'：
- 如果 p.charAt(j-1) != s.charAt(i) : dp[i][j] = dp[i][j-2] // in this case, a* only counts as empty
- 如果 p.charAt(i-1) == s.charAt(i) or p.charAt(i-1) == '.'：
- dp[i][j] = dp[i-1][j] // in this case, a* counts as multiple a
- or dp[i][j] = dp[i][j-1] // in this case, a* counts as single a
- or dp[i][j] = dp[i][j-2] // in this case, a* counts as empty

作者：lala-333
链接：https://leetcode-cn.com/problems/regular-expression-matching/solution/dong-tai-gui-hua-zen-yao-cong-0kai-shi-si-kao-da-b/

最终的状态转移方程：

\[dp[i][j] = \begin{cases} dp[i-1][j-1], & s[i]=p[j] \\\ dp[i][j−2], & p[j]='*'\ \& \ s[i]≠p[j-1] \\\ dp[i][j−2] \quad or \quad dp[i−1][j], & p[j]='*'\ \& \ s[i]=p[j-1] \\\ s[i]=p[j], & p[j]='.' \end{cases} \]

三. 初始化
记 s 的长度为 m，pp的长度为 n 。为便于状态更新，减少对边界的判断，初始二维 dp 数组维度为(m+1)×(n+1) ，其中第一行和第一列的状态分别表示字符串 s 和 p 为空时的情况。
显然，[0][0]=True。对于其他 dp[0][j]，当 p[j]≠'*'时，s[0,...,j]无法与空字符匹配，因此有 dp[0][j]=False；而当 p[j]='*'时，则有 dp[0][j]=dp[0][j−2]。

以 p= "c*a*b" 为例，dp[0][*] = [True, False, True, False, True, False]。
需要特别注意的是，由于 dp 数组维度为 (m+1)×(n+1)，在具体代码实现时，s[i-1] 和 p[j−1] 才是分别表示 s 和 p 中的第 i 和第 j 个字符。

作者：flix
链接：https://leetcode-cn.com/problems/regular-expression-matching/solution/by-flix-musv/

二维dp：

class Solution:
    def isMatch(self, s: str, p: str) -> bool:

        m, n = len(s), len(p)
        dp = [[False] * (n+1) for _ in range(m+1)]

        # 初始化
        dp[0][0] = True
        for j in range(1, n+1):
            if p[j-1] == '*':
                dp[0][j] = dp[0][j-2]

        # 状态更新
        for i in range(1, m+1):
            for j in range(1, n+1):
                if s[i-1] == p[j-1] or p[j-1] == '.':
                    dp[i][j] = dp[i-1][j-1]
                elif p[j-1] == '*':     # 【题目保证'*'号不会是第一个字符，所以此处有j>=2】
                    if s[i-1] != p[j-2] and p[j-2] != '.':
                        dp[i][j] = dp[i][j-2]
                    else:
                        dp[i][j] = dp[i][j-2] | dp[i-1][j]

        return dp[m][n]

作者：flix
链接：https://leetcode-cn.com/problems/regular-expression-matching/solution/by-flix-musv/

一维DP：动态规划的滚动数组优化
在上面的状态转移方程中，每一行的 dp[i][j] 状态值都只与上一行（正上方）的 dp[i−1][∗] 和本行（左方）的dp[i][∗] 状态值有关，因此可基于滚动数组的思想进行对状态空间 dp 进行优化而省去第一维度。

class Solution:
    def isMatch(self, s: str, p: str) -> bool:

        m, n = len(s), len(p)
        dp = [False] * (n+1)

        # 初始化
        dp[0] = True
        for j in range(1, n+1):
            if p[j-1] == '*':
                dp[j] = dp[j-2]

        # 状态更新
        for i in range(1, m+1):
            dp2 = [False] * (n+1)       # 滚动数组
            for j in range(1, n+1):
                if s[i-1] == p[j-1] or p[j-1] == '.':
                    dp2[j] = dp[j-1]
                elif p[j-1] == '*':
                    if s[i-1] != p[j-2] and p[j-2] != '.':
                        dp2[j] = dp2[j-2]
                    else:
                        dp2[j] = dp2[j-2] | dp[j]
            dp = dp2                    # 滚动数组

        return dp[n]

作者：flix
链接：https://leetcode-cn.com/problems/regular-expression-matching/solution/by-flix-musv/

一维DP：动态规划的滚动数组优化 + 提前结束
注意到，在状态转移过程中，每一行的 dp[i][j] 状态值都只与上一行（正上方）的 dp[i−1][∗] 和本行（左方）的 dp[i][∗] 状态值有关，因此若某一行的 dp 值均为 False，即对于 s 中的某一个字符无法在 p 中得到匹配时，整个 s 字符串也就无法得到匹配，可直接返回 False 而提前终止程序。

class Solution:
    def isMatch(self, s: str, p: str) -> bool:

        m, n = len(s), len(p)
        dp = [False] * (n+1)

        # 初始化
        dp[0] = True
        for j in range(1, n+1):
            if p[j-1] == '*':
                dp[j] = dp[j-2]

        # 状态更新
        for i in range(1, m+1):
            dp2 = [False] * (n+1)           # 滚动数组
            for j in range(1, n+1):
                if s[i-1] == p[j-1] or p[j-1] == '.':
                    dp2[j] = dp[j-1]
                elif p[j-1] == '*':
                    if s[i-1] != p[j-2] and p[j-2] != '.':
                        dp2[j] = dp2[j-2]
                    else:
                        dp2[j] = dp2[j-2] | dp[j]
            dp = dp2                        # 滚动数组

            if sum(dp) == 0:                # 提前结束
                return False

        return dp[n]

作者：flix
链接：https://leetcode-cn.com/problems/regular-expression-matching/solution/by-flix-musv/。

「手画图解」动态规划，需要仔细的分情况讨论 - 正则表达式匹配
copy评论的代码：

class Solution:
    def isMatch(self, s: str, p: str) -> bool:
        s_len = len(s)
        p_len = len(p)

        # dp[i][j] 表示 s[:i] 与 p[:j] 是否匹配，各自前 i、j 个是否匹配
        dp = [[False] * (p_len + 1) for _ in range(s_len + 1)]
        dp[0][0] = True

        # s 为空串
        for j in range(1, p_len + 1):
            # 若 p 的第 j 个字符 p[j - 1] 是 '*'
            # 说明第 j - 1、j 个可有可无
            # 那么如果前 j - 2 个已经匹配上，前 j 个也可以匹配上
            if p[j - 1] == '*':
                dp[0][j] = dp[0][j - 2]

        for i in range(1, s_len + 1):
            for j in range(1, p_len + 1):
                if p[j - 1] in {s[i - 1], '.'}:
                    dp[i][j] = dp[i - 1][j - 1]
                elif p[j - 1] == '*':
                    if p[j - 2] in {s[i - 1], '.'}:
                        dp[i][j] = dp[i][j - 2] or dp[i - 1][j]
                    else:
                        dp[i][j] = dp[i][j - 2]
        return dp[s_len][p_len]

dp[i][j] = dp[i][j - 2] or dp[i][j - 1] or dp[i - 1][j]这个的第二项优化为 dp[i][j] = dp[i][j - 2] or dp[i-1][j - 2] or dp[i - 1][j]

posted @ 2022-04-26 11:57 Vonos 阅读(197) 评论(0) 收藏举报

刷新页面返回顶部

Jojo-L

【动态规划】力扣10：正则表达式匹配（So hard）

公告