Python3笔记--Re模块(正则表达式)
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。
一些功能函数
- re.search函数
原型:search(pattern,string,flags=0)
参数:
pattern:匹配的正则表达式,
string:要匹配的字符串,
flags:标志位,用于控制正则表达式的匹配方式功能:扫描整个字符串,并返回第一个成功的匹配Match对象
import re print(re.search("sunck","good man is sunCk.sunck is nice.")) #<re.Match object; span=(18, 23), match='sunck'>
- re.match函数
原型:match(pattern,string,flags=0)
参数:
pattern:匹配的正则表达式,
string:要匹配的字符串,
flags:标志位,用于控制正则表达式的匹配模式
功能:尝试从字符串的起始位置匹配,成功返回Match对象.
如果不是起始位置匹配成功,还是返回None,有一定局限性import re print(re.match("www","www.baidu.com")) #<re.Match object; span=(0, 3), match='www'>
- re.findall函数
原型:findall(pattern,string,flags=0)
参数:
pattern:匹配的正则表达式,
string:要匹配的字符串,
flags:标志位,用于控制正则表达式的匹配方式功能:扫描整个字符串,并返回匹配的结果的列表
print(re.findall("sunck","good man is sunck!sunck is good man.")) #['sunck', 'sunck']
- re.finditer函数
原型:finditer(pattern,string,flags=0)
参数:
pattern:匹配的正则表达式,
string:要匹配的字符串,
flags:标志位,用于控制正则表达式的匹配方式功能:与findall类似,扫描整个字符串,并返回一个迭代器
str2="sunck is a good man!sunck is a nice man!sunck is a handsome man!" res=re.finditer(r"sunck",str2) #这里字符串前r表示不转义,使用真实字符 while True: #防止迭代器为空时的报错 try: n=next(res) print(n) except: break #<re.Match object; span=(0, 5), match='sunck'> #<re.Match object; span=(20, 25), match='sunck'> #<re.Match object; span=(40, 45), match='sunck'>
-
re.sub()与
re.subn()函数字符串的替换和修改
sub(pattern,repl,string,count=0)
subn(pattern,repl,string,count=0)
pattern:正则表达式(规则)
repl:指定的用来替换的字符串
string:目标字符串
count:最多替换次数
功能:在目标字符串中以正则表达式的规则匹配字符串,
再把它们替换成指定的字符串。可以指定替换的次数。0为默认替换所有。
sub与subn区别:前者返回第一个被替换的字符串,后者返回一个元组,
元组中第一个元素为替换的字符串,第二个元素表示被替换的次数。str3 = r'https://www.baidu.com/s?word=ts&tn=78000241_11_hao_pg' res = re.sub('/s.*','',str3) print(res) #https://www.baidu.com
- re.split(pattern,string)
字符串切割
用re进行字符串切割比原生的字符串方法split()可更灵活定义切割的规则str4 = "sunck is a good man" print(str4.split(" ")) print(re.split(r" +",str4)) #['sunck', '', '', '', '', 'is', '', 'a', 'good', '', 'man'] #['sunck', 'is', 'a', 'good', 'man']
- re.compile函数
用以编译:
re.compile(pattern,flags=0)
pattern:要编译的正则表达式re_telephon = re.compile(r"\d{11}") print(re_telephon.findall('188888888888888')) #['18888888888']
元字符
-
.(点) (规则里的.元字符)可以是任何一个字符,匹配任意除换行符"\n"外的字符 -
\ 反斜杠后边跟元字符去除特殊功能;(即将特殊字符转义成普通字符),2.反斜杠后边跟普通字符实现特殊功能;(即预定义字符) -
*(规则里的*元字符)前面的一个字符可以是0个或多个原本字符,匹配前一个字符0或多次,贪婪匹配前导字符有多少个就匹配多少个,如果规则里只有一个分组,尽量避免用*否则会有可能匹配出空字符串 -
+(规则里的+元字符)前面的一个字符可以是1个或多个原本字符,匹配前一个字符1次或无限次,贪婪匹配前导字符有多少个就匹配多少个 -
?(规则里的?元字符)前面的一个字符可以是0个或1个原本字符,匹配一个字符0次或1次,还有一个功能是可以防止贪婪匹配,详情见非贪婪匹配 -
^ 匹配字符串开头。在多行模式中匹配每一行的开头,注意:^元字符如果写到[]字符集里就是反取,单独在表达式中使用就是匹配开头 -
$ 匹配字符串末尾,在多行模式中匹配每一行的末尾 -
| 或,或就是前后其中一个符合就匹配 -
{} (规则里的 {} 元字符)前面的一个字符,是自定义字符数,位数的原本字符,{m}匹配前一个字符m次,{m,n}匹配前一个字符m至n次,若省略n,则匹配m至无限次,{0,}匹配前一个字符0或多次,等同于*元字符,{+,}匹配前一个字符1次或无限次,等同于+元字符,{0,1}匹配前一个字符0次或1次,等同于?元字符 -
[] (规则里的 [] 元字符)对应位置是[]里的任意一个字符就匹配,字符集。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出,也可以给出范围,如[abc]或[a-c]。[^abc]表示取反,即非abc。所有特殊字符在字符集中都失去其原有的特殊含义。用\反斜杠转义恢复特殊字符的特殊含义。 -
() 也就是分组匹配,()里面的为一个组也可以理解成一个整体,如果()后面跟的是特殊元字符如 (adc)* 那么*控制的前导字符就是()里的整体内容,不再是前导一个字符
预定义字符集
-
\d 匹配数字,类似[0-9]
-
\D 匹配非数字,类似[^0-9]
-
\w 匹配任意数字、字母和下划线,类似[0-9a-zA-Z_]
-
\W 匹配非数字、字母和下划线,类似[^0-9a-zA-Z_]
-
\s 匹配任意空白字符(空格、换行、回车、换页、制表),类似[ \f\n\r\t]
-
\S 匹配任意非空白字符(空格、换行、回车、换页、制表),类似[^ \f\n\r\t]
-
\A 匹配字符串开始,和^区别是,即使在re.M模式下它也不会匹配它行的行首
-
\Z 匹配字符串结束,和$区别是,即使在re.M模式下它也不会匹配它行的行尾
-
\b 匹配一个单词的边界,也就是单词和空格间的位置
-
\B 匹配非单词边界
print(re.search(r"er\b","never")) print(re.search(r"er\b","nerve")) print(re.search(r"er\B","never")) print(re.search(r"er\B","nerve")) #<re.Match object; span=(3, 5), match='er'> #None #None #<re.Match object; span=(1, 3), match='er'>
正则匹配模式
- re.I 忽略大小写
- re.L 做本地化识别
- re.M 多行匹配,影响^(匹配行首)和$(匹配行尾)
- re.S 使.点匹配包括换行符在内的所有字符
- re.U 根据Unicode字符集解析字符,影响\w,\W,\b,\B
- re.X 使我们以更灵活的格式理解正则表达式
匹配多个字符
说明:下方的x,y,z均为假设的普通字符,不是正则表达式的元字符
(xyz) 匹配小括号内的xyz(作为一个整体去匹配)
x? 匹配0个或1个x x* 匹配0个或任意多个字符(换行符除外) x+ 匹配最少一个x x{n} 匹配确定的n个x x{n,} 匹配最少n个x x{n,m} 匹配最少n个最多m个x.注意:n<=m x|y |表示或,匹配的是x或y
print(re.findall(r"(sunck)","suncks is a good man,is nice man sunck ")) #['sunck', 'sunck'] print(re.findall(r"a?","aaa")) #['a', 'a', 'a', ''] print(re.findall(r"a*","aaabaaaa")) #['aaa', '', 'aaaa', ''] print(re.findall(r"a+","aaaabaaaaaaaa")) #['aaaa', 'aaaaaaaa'] print(re.findall(r"a{3}","aaabaa")) #['aaa'] print(re.findall(r"a{3,}","aaaaaaabaa")) #['aaaaaaa'] print(re.findall(r"(s|Sunck)",'sunck--Sunck')) #['s', 'Sunck']

浙公网安备 33010602011771号