正则表达式中的惰性匹配是什么意思？

刚学正则表达式的时候，惰性匹配还挺难理解的。所以我看了挺多博客，终于弄懂了，现在用表格整理一下：

符号	作用
.	匹配任意除换行符 `\n` 外的字符
*	匹配前面的字符 0 次或多次
+	匹配前面的字符 1 次或多次
?	匹配前面的字符零次或一次，或作为非贪婪限定符
.*	匹配除换行符 `\n` 外的任意字符 0 次或多次
.+	匹配除换行符 `\n` 外的任意字符 1 次或多次
.*?	匹配除换行符 `\n` 外的任意字符 0 次或多次，但匹配结果尽可能短
.+?	匹配除换行符 `\n` 外的任意字符 0 次或多次，但匹配结果尽可能短

上面表格中最后两行的 ? 的作用就是指明一个非贪婪限定符，什么叫尽可能少重复？简单点说就是匹配最短的符合要求的表达式，如果不加 ?，默认匹配满足要求的最长的字符串，下面举出例子：

re.match(r'a.*b', 'aababa') # 1
re.match(r'a.*?b', 'aababa') # 2

re.match(r'a.+?b', 'aababa') # 3

同理 .+? 也一样，只不过和 .*? 比起来，这里最后的结果不包括匹配 0 次的情况而已，所以 3 式结果为 aab，ab 由于中间匹配 0 次，不会被匹配。

re.match(r'hello.*?world', 'xxxhelloworldxxhelloxxworld' # 4

通过上面的解析，结果显而易见：helloworld 和 helloxxworld。至于为什么没有 helloworldxxhelloxxworld，相信你也清楚了。

posted @ 2023-02-20 17:44 touryung 阅读(293) 评论(0) 收藏举报

刷新页面返回顶部

Loading