正则表达式中的惰性匹配是什么意思?
刚学正则表达式的时候,惰性匹配还挺难理解的。所以我看了挺多博客,终于弄懂了,现在用表格整理一下:
| 符号 | 作用 |
|---|---|
| . | 匹配任意除换行符 \n 外的字符 |
| * | 匹配前面的字符 0 次或多次 |
| + | 匹配前面的字符 1 次或多次 |
| ? | 匹配前面的字符零次或一次,或作为非贪婪限定符 |
| .* | 匹配除换行符 \n 外的任意字符 0 次或多次 |
| .+ | 匹配除换行符 \n 外的任意字符 1 次或多次 |
| .*? | 匹配除换行符 \n 外的任意字符 0 次或多次,但匹配结果尽可能短 |
| .+? | 匹配除换行符 \n 外的任意字符 0 次或多次,但匹配结果尽可能短 |
上面表格中最后两行的 ? 的作用就是指明一个非贪婪限定符,什么叫尽可能少重复?简单点说就是匹配最短的符合要求的表达式,如果不加 ?,默认匹配满足要求的最长的字符串,下面举出例子:
示例一(.*?)
re.match(r'a.*b', 'aababa') # 1
re.match(r'a.*?b', 'aababa') # 2
- 1 式没有非贪婪限定符,匹配满足要求的最长表达式,结果为 aabab
- 2 式有非贪婪限定符,结果尽可能短,因此结果为 aab。但是!到这里字符串还没有匹配完,还会继续匹配直到最后一个字符,因此最终的结果是两个,aab 和 ab
示例二(.+?)
re.match(r'a.+?b', 'aababa') # 3
同理 .+? 也一样,只不过和 .*? 比起来,这里最后的结果不包括匹配 0 次的情况而已,所以 3 式结果为 aab,ab 由于中间匹配 0 次,不会被匹配。
较难一点的示例
re.match(r'hello.*?world', 'xxxhelloworldxxhelloxxworld' # 4
通过上面的解析,结果显而易见:helloworld 和 helloxxworld。至于为什么没有 helloworldxxhelloxxworld,相信你也清楚了。

浙公网安备 33010602011771号