[Leetcode] Regular expression matching 正则表达式匹配

Implement regular expression matching with support for'.'and'*'.

'.' Matches any single character.
'*' Matches zero or more of the preceding element.

The matching should cover the entire input string (not partial).

The function prototype should be:
bool isMatch(const char *s, const char *p)

Some examples:
isMatch("aa","a") → false
isMatch("aa","aa") → true
isMatch("aaa","aa") → false
isMatch("aa", "a*") → true
isMatch("aa", ".*") → true
isMatch("ab", ".*") → true
isMatch("aab", "c*a*b") → true

题意:' . '能匹配任意字符,‘ * ‘表示之前的那个字符可以是0个、1个或者多个,(注意:s= ba和 p= a*bc也是匹配的,*表示p中 * 之前的字符为0个,但s=‘bc’和 p=‘aa*bc’是不匹配的)。

思路:根据字符' * '的特殊性,整体的解决方法主要是分两种情况:

一、p的第二个字符*(p+1)不是 ' * ',这种情况,只要存在 *s==*p 或者*p=' . '中的一种情况,就说明当前p 和 s 对应的字符匹配,就可以比较两个的下一个字符(这有一个前提,就是 s 要不为空,要是 s 为空了,就不匹配了,不用继续比较了);

二、p的第二个字符*(p+1)是 ' * ',这种情况就比较麻烦了,也分两种情况:

  1) 在*s==*p 或者*p==' . '其中的一种情况下,判断 ' * '是代表0个、1个或者多个前一个字符,如何去实现了?先将 *s 和*(p+2)去匹配,看是否能匹配,若能代表*表示0个之前字符,若是不能,则将s++,然后和P接着匹配,看是否匹配,若是,则将 *s 和*(p+2)去匹配继续上部分的循环;若不是,则直接将 *s 和*(p+2)去匹配,不用继续判断*s和*p是否匹配。是有点绕口,结合代码看,可能稍微好些。如:s= aba和 p= a*ba或者s= aab和 p= a*bc

  2)*s !=*p 和*p !=' . ',说明,p中的第一个字符,在s中不存在,直接说明 ' * '代表0个之前的字符,那么就继续判断 *s 和*(p+2)是否匹配。如s= ba和 p= a*bc是匹配,s= ba和 p= a*cbc则是不匹配,但是说明依旧说明在开始判断时,' * '代表0个 a。

结合 : 当p为空,若s也为空,返回true,反之返回false; 当p的长度为1,若s长度也为1,且相同或是p为'.'则返回true,反之返回false;代码如下:

 1 class Solution {
 2 public:
 3     bool isMatch(const char *s, const char *p) 
 4     {
 5         if(*p=='\0')    return *s=='\0';
 6         if(*(p+1) =='*')
 7         {
 8             while(*p==*s||(*p=='.'&&*s !='\0'))
 9             {
10                 if(isMatch(s++,p+2))    //判断*之前元素的个数
11                     return true;
12             }
13             return isMatch(s,p+2);      //直接匹配字符*的下一个
14         }
15         else
16         {
17             if(*p==*s||(*p=='.'&&*s !='\0'))
18                 return isMatch(s+1,p+1);
19             return false;
20         }
21     }
22 };

 
还有一种利用动态规划的方法,暂时没有看太懂,这里给出链接1 ,链接2,方便以后揣摩。

 再次看题时,看到这里有动态规划的解法,就结合LeetCode给出了自己的理解,具体分析过程参见上面的递归,这里仅给出状态转移方程的解释,其中dp[i[[j]是表示s[0,i)和p[0,j)相匹配(注意区间前闭后开)

j注意二维数组下标和字符串下表的对应关系

(1)当字符串p中当前字符不是‘*’时,对dp[i][j]只要此时字符串s、p对应匹配,则dp[i][j]的状态应和dp[i-1][j-1]一样,即:

dp[i][j]=i>0&&dp[i-1][j-1]&&(s[i-1]==p[j-1]||p[j-1]=='.');

(2)当字符串p中当前字符是‘*’时,有两种情况:

  (a)该字符'*'只代表0个前一个字符,所以当前的dp值要看同行中前两列的值,则:

  dp[i][j]=dp[i][j-2] 

 (b) 该字符'*'只代表一个或多个前一个字符时,p中*对应的s中的字符要和p中*之前的字符向匹配,即s中有多个*之前的字符,只有这样才可能代表多个,这时也要考虑p中*和之前的是否和s中,对应之前的相匹配。

感觉说不清了,好绕,举个例子:s="aaab",p="a*b",p[1]=* 了,此时*代表多个p[0] (设代表n个),所以要考虑,s中是否有多个a啊,所以把p[0]和s[1]对比,发现匹配,那这时是不是说明两者相匹配了?不一定,如:s="baab",b="a*b",p[0]和s[1]匹配,而两字符串不匹配,即我们还要考虑s[0]和p[0]与p[1]组合的字符串是否匹配,即*代表n-1个是否匹配。

    dp[i][j] = i>0&&(s[i-1]==p[j-2]||p[j-2]=='.')&&dp[i-1][j]

s="aaab",p="a*b"时,列为p,行为s二维矩阵为:

  “” a * b
"" T F T F
a F T T F
a F F T F
a F F T F
b F F F T

 

 代码如下:

 1 class Solution {
 2 public:
 3     bool isMatch(const char *s, const char *p) 
 4     {
 5         int slen=strlen(s),plen=strlen(p);
 6         vector<vector<bool>> dp(slen+1,vector<bool>(plen+1,false));
 7 
 8         dp[0][0]=true;
 9 
10         for(int i=0;i<slen+1;i++)
11         {
12             for(int j=1;j<plen+1;++j)
13             {
14                 if(p[j-1]=='*')
15                     dp[i][j]=dp[i][j-2]||(i>0&&(s[i-1]==p[j-2]||p[j-2]=='.')&&dp[i-1][j]);
16                 else
17                     dp[i][j]=i>0&&dp[i-1][j-1]&&(s[i-1]==p[j-1]||p[j-1]=='.');
18 
19             }
20         }    
21         return dp[slen][plen];    
22     }
23 };

 

个人建议:画出矩阵看

posted @ 2017-06-25 11:56  王大咩的图书馆  阅读(321)  评论(0编辑  收藏  举报