python之正则表达式
正则表达式
- re模块
- 正则表达式基础
- 正则表达式使用
一、re模块的使用
1.1 匹配方法的使用
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
import re print(re.match('www.huawei', 'www.huawei.com').span()) # 在起始位置匹配 print(re.match('com', 'www.huawei.com')) # 不在起始位置匹配
re.search 扫描整个字符串并返回第一个成功的匹配。
import re print(re.search('www', 'www.huawei.com').span()) # 在起始位置匹配 print(re.search('com', 'www.huawei.com').span()) # 不在起始位置匹配
1.2 compile 方法的使用
re.compile 函数用于编译正则表达式,生成一个正则表达式(Pattern )对象,供 match() 和 search() 这两个函数使用。
import re pattern = re.compile(r'\d+') # 用于匹配至少一个数字 n = pattern.match('one12twothree34four') # 查找头部,没有匹配 print(n) # 从'e'的位置开始匹配,没有匹配 m = pattern.search('one12twothree34four') print(m) print(m.group(0)) # 获得所有匹配的第一个
1.3 re 模块其他方法的使用
re.sub 用于替换字符串中的匹配项:
import re phone = "2021-0101-000 # 这是一个电话号码" # 删除字符串中的 Python 注释 num = re.sub(r'#.*$', "", phone) # $从结尾进行匹配 print("电话号码是: ", num) # 删除非数字(-)的字符串 num = re.sub(r'\D', "", phone) # 非字符\D print("电话号码是 : ", num)
re. findall 方法查找所有的符合条件的文本。
import re phone = "2021-0101-000 # 这是一个电话号码 0" # 查找所有的 0 num = re.findall(r'0', phone) # 得到一个列表 print( num)
re.split 方法按照能够匹配的子串将字符串分割后返回列表
import re # re.split(pattern, string[, maxsplit=0, flags=0]) phone = "2021-0101-000 # 这是一个电话号码" re.split(r"-",phone)
1.4 正则表达式修饰符
import re # re.I 对大小写不敏感 str_ = "Life is short, you need Python" r1 = re.match("life is short",str_) r2 = re.match("life is short",str_, flags=re.I).group() print(r1) print(r2)
二、正则表达式基础
2.1 匹配数字
import re # 匹配文本中的所有数字 str_ = "996.ICU 指工作 996、生病 ICU,也就是工作从早上 9 点上班到晚上 9 点下班,每周工作 6 天,生病了就住进 ICU22,4444" num1 = re.findall(r'\d+', str_) # 使用\d 匹配数字,+表示匹配多次 print(num1) num2 = re.findall(r'[0-9]{1,3}', str_) # 正则表达式不唯一,可以使用[]指定匹配元素的范围,{}指定次数 print(num2)
2.2 匹配字符
使用\w 可以匹配数字字母下划线
import re str_ = "996.ICU 指工作 996、生病 ICU,也就是工作从早上 9 点上班到晚上 9 点下班,每周工作 6 天,生病了就住进 ICU45____" s1 = re.findall(r'\w+', str_) s1
使用\S 匹配任意非空格字符
import re str_ = "996.ICU 指工作 996、生病 ICU,也就是工作从早上 9 点上班到晚上 9 点下班,每周工作 6 天,生病了就住进 ICU45____" s2 = re.findall(r'\S+', str_) s2
只匹配英文字母:
import re str_ = "996.ICU 指工作 996、生病 ICU,也就是工BCD作从早上 9 点上班到晚上 9 点下班,每周工作 6 天,生病了就住进 ICU45____" #在文本中匹配英文 s3 = re.search(r'[A-Za-z]+', str_).group() print(s3)
匹配任意的非数字字符\D:
import re str_ = "996.ICU 指工作 996、生病 ICU,也就是工BCD作从早上 9 点上班到晚上 9 点下班,每周工作 6 天,生病了就住进 ICU45____" s4 = re.findall(r'\D+', str_) s4
只匹配中文:
\u4e00 和\u9fa5 两个 unicode 值正好是 Unicode 表中的汉字的头和尾
import re str_ = "996.ICU 指工作 996、生病 ICU,也就是工BCD作从早上 9 点上班到晚上 9 点下班,每周工作 6 天,生病了就住进 ICU45____" # 匹配文本中的所有汉字 s5 = re.findall(r'[\u4e00-\u9fa5]{1,}', str_) print(s5)
2.3 匹配符号\W
import re str_ = "996.ICU 指工作 996、生病 ICU,也就是工BCD作从早上 9 点上班到晚上 9 点下班,每周工作 6 天,生病了就住进 ICU45____" # 匹配文本中的所有符号 s6 = re.findall(r'\W+', str_) print(s6)
三、正则表达式使用
3.1 匹配文本信息中的邮箱信息
import re str_ = "我的邮箱是 python996@icu.com" s = re.findall(r'[A-Za-z0-9]+@[A-Za-z0-9]+\.com', str_) print(s)
3.2 匹配网址 URL
\s 表示,只要出现空白就匹配, ^取反,[ ]*表示任意
import re str__ = "我的个人主页:https://www.python.org" s = re.findall(r'[a-zA-z]+://[^\s]*', str__) print(s)
3.3 匹配身份证号码
import re str__ = "我的身份证号码是 12345678901234567X" s = re.findall(r'(\d{6})(\d{4})(\d{2})(\d{2})(\d{3})([0-9]|X)', str__) print(s) print(''.join(s[0])) # 元组内部的合并
3.4 匹配手机号码
import re str__ = "我的手机号是 13012345678" s = re.findall(r'\d{3}\d{8}|\d{4}\d{7,8}', str__) # 至少是7个数字,最多8个数字\d{7,8} print(s)
3.5 贪婪模式下的匹配
会匹配出所有符合条件的内容.*
import re html = "aa<div>test1</div>bb<div>test2</div>cc " res = re.search("<div>.*</div>",html) print(res.group())
3.6 非贪婪模式下的匹配
只会匹配最开始的一个.*?
import re
html = "aa<div>test1</div>bb<div>test2</div>cc " res = re.search("<div>.*?</div>",html) print(res.group())

浙公网安备 33010602011771号