正则表达式 (学习笔记)

正则表达式的难度不在于难懂，而在于对它的表述没有恰当的分类和组织，所以弄得很零散难以记忆。按照自己的理解和归纳记录一份笔记，以备遗忘时查看。

正则表达式(regular expressions)是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。

1. 匹配的字符内容：

Regular String	Explanation
`\d`	匹配一个数字等价于`[0-9]`
`\D`	匹配一个非数字等价于`[^0-9]`
`\w`	匹配一个字母或数字等价于 `[^A-Za-z0-9_]` 实际是除了(`[0-9a-zA-Z_]`)还包含了希腊字母，俄文的字母等；所以如果在用户信息注册的时候需要注意具体匹配的数据切不可直接用`\w`就完事了能不能匹配汉字要视你的操作系统和你的应用环境而定
`\W`	可以匹配一个非字母或数字等价于`[^a-zA-Z0-9_]`
`\s`	可以匹配一个空格（也包括Tab等空白符）等价于 `[ \f\n\r\t\v]`
`\S`	匹配一个任何非空白字符。等价于 `[^ \f\n\r\t\v]`。
`.`	匹配除换行符以外的一个任意字符
`[]`	匹配集合中列出的一个字符
`[^]`	匹配集合中没有列出的一个字符
`\|`	或表达式

例如：

00\d可以匹配007，但无法匹配00A；
\d\d\d可以匹配010；
\w\w\d可以匹配py3；
py.可以匹配pyc、pyo、py!等等。
[0-9a-zA-Z\_]可以匹配一个数字、字母或者下划线；
A|B可以匹配A或B，所以(P|p)ython可以匹配Python或者python。

2. 匹配的次数

Regular String	Explanation
`*`	表示一次或者多次（0次、或1次、或多次）
`+`	表示至少一个字符（1次或多次）
`?`	表示0个或1个字符（0次、或1次）
`{n}`	表示n个字符
`{n,m}`	表示n-m个字符

例如：

runoo+b，可以匹配 runoob、runooob、runoooooob 等，+ 号代表前面的字符必须至少出现一次（1次或多次）。
runoo*b，可以匹配 runob、runoob、runoooooob 等，* 号代表前面的字符可以不出现，也可以出现一次或者多次（0次、或1次、或多次）。
colou?r 可以匹配 color 或者 colour，? 问号代表前面的字符最多只可以出现一次（0次、或1次）。
一个复杂的例子：\d{3}\s+\d{3,8}，匹配010 12345这样的号码。
- ：\d{3}表示匹配3个数字，例如010；
- ：\s可以匹配一个空格（也包括Tab等空白符），所以\s+表示至少有一个空格，例如匹配’ '等；
- ：\d{3,8}表示3-8个数字，例如1234567。
[0-9a-zA-Z\_]+可以匹配至少由一个数字、字母或者下划线组成的字符串，比如a100，0_Z，Py3000等等；
[a-zA-Z\_][0-9a-zA-Z\_]*可以匹配由字母或下划线开头，后接任意个由一个数字、字母或者下划线组成的字符串，也就是Python合法的变量；
[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精确地限制了变量的长度是1-20个字符（前面1个字符+后面最多19个字符）。

3. 匹配的位置

Regular String	Explanation
`^`	匹配行的开头位置，不匹配任何字符
`$`	匹配行的结束位置，不匹配任何字符
`\A`	匹配字符串的开头位置，不匹配任何字符
`\Z`	匹配字符串的结束位置，不匹配任何字符
`\b`	匹配一个单词边界，也就是单词和空格之间的位置
`\B`	匹配一个非单词边界，与`\b`相反

例如：

^\d表示必须以数字开头。
\d$表示必须以数字结束。

4. 匹配的分组提取

Regular String	Explanation
`()`	表示的就是要提取的分组（Group）

例如：

^(\d{3})-(\d{3,8})$分别定义了两个组，可以直接从匹配的字符串中提取出区号和本地号码：

>>> m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
>>> m
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>> m.group(0)
'010-12345'
>>> m.group(1)
'010'
>>> m.group(2)
'12345'

5. 贪婪匹配

正则匹配默认是贪婪匹配，也就是匹配尽可能多的字符。

>>> re.match(r'^(\d+)(0*)$', '102300').groups()
('102300', '')

由于\d+采用贪婪匹配，直接把后面的0全部匹配了，结果0*只能匹配空字符串了。
必须让\d+采用非贪婪匹配（也就是尽可能少匹配），才能把后面的0匹配出来，加个?就可以让\d+采用非贪婪匹配：

>>> re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023', '00')

参考文档

1.Regular Expression HOWTO
2.揭开正则表达式的神秘面纱

posted @ 2021-07-30 11:34 pwl999 阅读(180) 评论(0) 收藏举报

刷新页面返回顶部

pwl999

RTFSC: Read The Fucking Source Code