python之正则表达式

正则表达式

re模块
正则表达式基础
正则表达式使用

一、re模块的使用

1.1 匹配方法的使用

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

import re
print(re.match('www.huawei', 'www.huawei.com').span()) # 在起始位置匹配
print(re.match('com', 'www.huawei.com')) # 不在起始位置匹配

re.search 扫描整个字符串并返回第一个成功的匹配。

import re 
print(re.search('www', 'www.huawei.com').span()) # 在起始位置匹配
print(re.search('com', 'www.huawei.com').span()) # 不在起始位置匹配

1.2 compile 方法的使用

re.compile 函数用于编译正则表达式，生成一个正则表达式（Pattern ）对象，供 match() 和 search() 这两个函数使用。

import re 
pattern = re.compile(r'\d+') # 用于匹配至少一个数字
n = pattern.match('one12twothree34four') # 查找头部，没有匹配
print(n)

# 从'e'的位置开始匹配，没有匹配
m = pattern.search('one12twothree34four') 
print(m)
print(m.group(0))   # 获得所有匹配的第一个

1.3 re 模块其他方法的使用

re.sub 用于替换字符串中的匹配项：

import re 
phone = "2021-0101-000 # 这是一个电话号码"
# 删除字符串中的 Python 注释
num = re.sub(r'#.*$', "", phone)   # $从结尾进行匹配
print("电话号码是: ", num)
# 删除非数字(-)的字符串
num = re.sub(r'\D', "", phone)  # 非字符\D
print("电话号码是 : ", num)

re. findall 方法查找所有的符合条件的文本。

import re 
phone = "2021-0101-000 # 这是一个电话号码 0"
# 查找所有的 0
num = re.findall(r'0', phone)  # 得到一个列表
print( num)

re.split 方法按照能够匹配的子串将字符串分割后返回列表

import re 
# re.split(pattern, string[, maxsplit=0, flags=0])
phone = "2021-0101-000 # 这是一个电话号码"
re.split(r"-",phone)

1.4 正则表达式修饰符

import re 
# re.I 对大小写不敏感
str_ = "Life is short, you need Python"
r1 = re.match("life is short",str_)
r2 = re.match("life is short",str_, flags=re.I).group()
print(r1)
print(r2)

二、正则表达式基础

2.1 匹配数字

import re 
# 匹配文本中的所有数字
str_ = "996.ICU 指工作 996、生病 ICU，也就是工作从早上 9 点上班到晚上 9 点下班，每周工作 6 天，生病了就住进 ICU22，4444"
num1 = re.findall(r'\d+', str_) # 使用\d 匹配数字，+表示匹配多次
print(num1)
num2 = re.findall(r'[0-9]{1,3}', str_) # 正则表达式不唯一，可以使用[]指定匹配元素的范围，{}指定次数
print(num2)

2.2 匹配字符

使用\w 可以匹配数字字母下划线

import re 
str_ = "996.ICU 指工作 996、生病 ICU，也就是工作从早上 9 点上班到晚上 9 点下班，每周工作 6 天，生病了就住进 ICU45____"
s1 = re.findall(r'\w+', str_)
s1

使用\S 匹配任意非空格字符

import re 
str_ = "996.ICU 指工作 996、生病 ICU，也就是工作从早上 9 点上班到晚上 9 点下班，每周工作 6 天，生病了就住进 ICU45____"
s2 = re.findall(r'\S+', str_)
s2

只匹配英文字母：

import re 
str_ = "996.ICU 指工作 996、生病 ICU，也就是工BCD作从早上 9 点上班到晚上 9 点下班，每周工作 6 天，生病了就住进 ICU45____"
#在文本中匹配英文
s3 = re.search(r'[A-Za-z]+', str_).group()
print(s3)

匹配任意的非数字字符\D：

import re 
str_ = "996.ICU 指工作 996、生病 ICU，也就是工BCD作从早上 9 点上班到晚上 9 点下班，每周工作 6 天，生病了就住进 ICU45____"
s4 = re.findall(r'\D+', str_)
s4

只匹配中文:

\u4e00 和\u9fa5 两个 unicode 值正好是 Unicode 表中的汉字的头和尾

import re 
str_ = "996.ICU 指工作 996、生病 ICU，也就是工BCD作从早上 9 点上班到晚上 9 点下班，每周工作 6 天，生病了就住进 ICU45____"
# 匹配文本中的所有汉字
s5 = re.findall(r'[\u4e00-\u9fa5]{1,}', str_)
print(s5)

2.3 匹配符号\W

import re 
str_ = "996.ICU 指工作 996、生病 ICU，也就是工BCD作从早上 9 点上班到晚上 9 点下班，每周工作 6 天，生病了就住进 ICU45____"
# 匹配文本中的所有符号
s6 = re.findall(r'\W+', str_)
print(s6)

三、正则表达式使用

3.1 匹配文本信息中的邮箱信息

import re 
str_ = "我的邮箱是 python996@icu.com"
s = re.findall(r'[A-Za-z0-9]+@[A-Za-z0-9]+\.com', str_)
print(s)

3.2 匹配网址 URL

\s 表示，只要出现空白就匹配， ^取反，[ ]*表示任意

import re 
str__ = "我的个人主页：https://www.python.org"
s = re.findall(r'[a-zA-z]+://[^\s]*', str__)
print(s)

3.3 匹配身份证号码

import re 
str__ = "我的身份证号码是 12345678901234567X"
s = re.findall(r'(\d{6})(\d{4})(\d{2})(\d{2})(\d{3})([0-9]|X)', str__)
print(s)
print(''.join(s[0]))   # 元组内部的合并

3.4 匹配手机号码

import re 
str__ = "我的手机号是 13012345678"
s = re.findall(r'\d{3}\d{8}|\d{4}\d{7,8}', str__)   # 至少是7个数字，最多8个数字\d{7，8}
print(s)

3.5 贪婪模式下的匹配

会匹配出所有符合条件的内容.*

import re 
html = "aa<div>test1</div>bb<div>test2</div>cc "
res = re.search("<div>.*</div>",html)
print(res.group())

3.6 非贪婪模式下的匹配

只会匹配最开始的一个.*?

import re 
html = "aa<div>test1</div>bb<div>test2</div>cc "
res = re.search("<div>.*?</div>",html)
print(res.group())

posted @ 2023-03-16 21:40 暖阳的雪阅读(62) 评论(0) 收藏举报

刷新页面返回顶部

xulinfei