Python正则表达式--查找和替换，split（）

1.正则表达式

正则表达式

　　正则表达式是一个特殊的字符序列，计算机科学的一个概念。通常被用来检索、替换那些符合某个模式(规则)的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。在Python中需要通过正则表达式对字符串进行匹配的时候，可

以使用re模块。re 模块使 Python 语言拥有全部的正则表达式功能。

特点

灵活性、逻辑性和功能性非常强；

可以迅速地用极简单的方式达到字符串的复杂控制。

对于刚接触的人来说，比较晦涩难懂。

Python中的正则表达式

　　与大多数编程语言相同，正则表达式里也使用\作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符\，

那么使用编程语言表示的正则表达式里将需要4个反斜杠\：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个

反斜杠后再在正则表达式里转义成一个反斜杠。print(re.match('\\\\', '\hello'))  # 需要使用四个反斜杠来匹配

一个 \Python里的原生字符串很好地解决了这个问题，有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表

达式也更直观。在Python 字符串前面添加r即可将字符串转换成为原生字符串。

print(re.match(r'\\', '\hello')) # 使用两个反斜杠即可匹配一个 \

2.查找方法的使用

　　在Python中的查找匹配方法，常见的有下面四种，他们的用法大致相同，但是匹配出的结果却不同。

match方法(只匹配字符串开头)

search方法(扫描整个字符串，找到第一个匹配)

findall方法(扫描整个字符串，找到所有的匹配)

finditer方法(扫描整个字符串，找到所有的匹配，并返回一个可迭代对象)

（1）match方法的使用

　　re.match尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

函数语法:
　　re.match(pattern,string,flags=0)

　　参数    描述
　　pattern    匹配的正则表达式
　　string    要匹配的字符串。
　　flags    标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

　　我们可以使用group(num)函数来获取匹配的正则表达式。可以使用span()函数获取匹配到的元素的位置下标。

1 import re
2 
3 result1 = re.match(r'A', 'Ambitious')
4 result2 = re.match(r'b', 'Ambitious')
5 print(result1.group(0))  # 'A' 匹配到的元素
6 print(result1.span())  # (0,1) 匹配到的元素所在位置
7 print(result2)  # None

（2）search方法的使用

　　re.search 扫描整个字符串并返回第一个成功的匹配。

函数语法：

　　re.search(pattern, string, flags=0)

1 import re
2 
3 result1 = re.search(r'Am', 'Ambitious')
4 result2 = re.search(r'ou', 'Ambitious')
5 
6 print(result1.group(0))  # Am
7 print(result1.span())  # (0,2)
8 print(result2.group(0))  # ou
9 print(result2.span())  # (6,8)

（3）re.match与re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；

而re.search匹配整个字符串，直到找到一个匹配。

1 result1 = re.search(r'is', 'He is a boy')
2 result2 = re.match(r'is', 'He is a boy')
3 print(result1)  # <re.Match object; span=(3, 5), match='is'> (其中包含有空格)
4 print(result2)  # None

（4）findall方法的使用

　　在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

　　注意： match 和 search 是匹配一次 findall 匹配所有。

语法格式：

　　re.findall(pattern,string,flags=0)

1 ret = re.findall(r'\d+', 'he23ll34')
2 print(ret)  # ['23', '34']
3 ret = re.match(r'\d+', 'he23ll34')
4 print(ret)  # None match只匹配开头，所以匹配到
5 ret = re.search(r'\d+', 'he23ll34')
6 print(ret)  # <re.Match object; span=(2, 4), match='23'> search 只能匹配到一个数字

注意事项:

findall方法匹配时，如果匹配规则里有分组，则只匹配分组数据。

ret = re.findall(r'\w+@(qq|126|163)\.com','123@qq.com;aa@163.com;bb@126.com')
print(ret)  # ['qq', '163', '126']  只匹配到了分组里的内容


如果正则表达式里存在多个分组，则会把多个分组匹配成元组。

ret = re.findall(r'\w+@(qq|126|163)(\.com)','123@qq.com;aa@163.com;bb@126.com')
print(ret) #[('qq', '.com'), ('163', '.com'), ('126', '.com')]


如果想要让findall匹配所有的内容，而不仅仅只是匹配正则表达式里的分组，可以使用 ?:来将分组标记为非捕获分组。

ret = re.findall(r'\w+@(?:qq|126|163)\.com','123@qq.com;aa@163.com;bb@126.com')
print(ret) # ['123@qq.com', 'aa@163.com', 'bb@126.com']

（5）finditer方法的使用

　　和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

1 ret = re.finditer(r'\d+', 'tom56jack34')  # 得到的结果是一个可迭代对象
2 for x in ret:  # 遍历 ret 取出里面的每一项匹配
3     print(x.group(), x.span())  # 匹配对象里的group保存了匹配的结果
4 
5 # >> 56 (3, 5)
6 #    34 (9, 11)

3.替换方法 sub()

Python中的re模块提供了re.sub用户替换字符串中的匹配项。

语法：

re.sub(pattern,repl,string,count=0)

参数：
pattern : 正则中的模式字符串。
repl : 替换的字符串，也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

1 import re
2 
3 phone = "2004-959-559 # 这是一个电话号码"
4 # 删除注释
5 num = re.sub(r'#.*$', "", phone)  # 将#后面包含#一起替换“”。
6 print("电话号码 : ", num)  # >> 电话号码 :  2004-959-559

1 import re
2 phone = "2004-959-559 # 这是一个电话号码"
3 # 移除非数字的内容
4 num = re.sub(r'\D', "", phone)  # \D:非数字字符，将所有的非数字字符用“”代替
5 print("电话号码 : ", num)  # >> 电话号码 :  2004959559

用函数替换

 1 import re
 2 # repl可以使用一个字符串用来表示替换后的结果以外，还可以传入一个函数。
 3 # 分组的部分命名为test，将其中的数字筛选出来，转换成int类型，然后乘以2，转换成字符串，替换原来的字符
 4 def double(string):  # matched是要被查找替换的原始字符串。
 5     test = int(string.group('test'))
 6     print(string.group('test'))  # 23 34
 7     return str(test * 2)
 8 
 9 
10 print(re.sub(r'(?P<test>\d+)', double, 'hello23hi34'))  # hello46hi68

4.正则表达式与split()（实用性强）

1 # 子字符串中搜索，如果遇到：或者，就分割，将分割的内容保存到列表中
2 result = re.split(r'[,:]', 'java:95,python99')
3 print(result)
4 
5 # >> ['java', '95', 'python99']

posted @ 2022-04-04 12:37 Ambitious~ 阅读(264) 评论(0) 收藏举报

刷新页面返回顶部

Ambitious

Python正则表达式--查找和替换，split（）

1.正则表达式

特点

Python中的正则表达式

2.查找方法的使用

（1）match方法的使用

（2）search方法的使用

（3）re.match与re.search的区别

（4）findall方法的使用

（5）finditer方法的使用

3.替换方法 sub()

用函数替换

4.正则表达式与split()（实用性强）

公告