五、re

正则：是有语法的字符串，用来匹配目标字符串的

正则匹配步骤：
1. 将r' '的正则语法字符串转换成正则对象
2. 将转换后的正则对象来匹配目标字符串

一、匹配单个字符

# re.I 不区分大小写的匹配
print(re.findall(r'a','123AB*abqe# _$', flags=re.I))  # ['A', 'a']

# a|b == [ab]   匹配 a 或 b 单个字符
print(re.findall(r'a|b','123AB*abqe# _$',flags=re.I))  # ['A', 'B', 'a', 'b']
print(re.findall(r'[ab]','123AB*abqe# _$',flags=re.I))  # ['A', 'B', 'a', 'b']

#[^ab]非 a 及非 b 的所有单个字符
print(re.findall(r'[^ab]','123AB*abqe# _$'))  # ['1', '2', '3', 'A', 'B', '*', 'q', 'e', '#', ' ', '_', '$']

# [a-z]所有小写字母，[A-Z]所有大写字母，[0-9]所有单个数字
print(re.findall(r'[a-z]','123AB*abqe# _$'))       # ['a', 'b', 'q', 'e']
print(re.findall(r'[0-9]','123AB*abqe# _$'))        # ['1', '2', '3']
print(re.findall(r'[a-z]|[A-Z]|[0-9]','123AB*abqe# _$'))        # ['1', '2', '3', 'A', 'B', 'a', 'b', 'q', 'e']
print(re.findall(r'[a-zA-Z0-9]','123AB*abqe# _$'))        # ['1', '2', '3', 'A', 'B', 'a', 'b', 'q', 'e']

# . 会匹配出\n意外的所有单个字符  re.S会让 . 匹配所有单个字符
print(re.findall(r'.','123AB*a\nbqe# _$'))   # ['1', '2', '3', 'A', 'B', '*', 'a', 'b', 'q', 'e', '#', ' ', '_', '$']
print(re.findall(r'.','123AB*a\nbqe# _$',re.S))   # ['1', '2', '3', 'A', 'B', '*', 'a', '\n', 'b', 'q', 'e', '#', ' ', '_', '$']

# \d单个数字 == [0-9]   \D取非数字的所有字符
print(re.findall(r'\d','123AB*a\nbqe# _$'))     # ['1', '2', '3']
print(re.findall(r'\D','123AB*a\nbqe# _$'))     # ['A', 'B', '*', 'a', '\n', 'b', 'q', 'e', '#', ' ', '_', '$']

# \w == [a-zA-Z0-9_] 将常见的汉字理解为单个字母 \W去反
print(re.findall(r'\w','123AB*哈哈a\nbqe# _$'))  # ['1', '2', '3', 'A', 'B', '哈', '哈', 'a', 'b', 'q', 'e', '_']
print(re.findall(r'\W','123AB*哈哈a\nbqe# _$'))  # ['*', '\n', '#', ' ', '$']

# \s == [\f\n\r\t\v ] 单个空，制表符、换页符  \S去反
print(re.findall(r'\s','\f\n\r\t\v '))           # ['\x0c', '\n', '\r', '\t', '\x0b', ' ']
print(re.findall(r'\S','\f\n\r\t\v '))           # []

# 单个汉字 [\u4e00-\u9fa5]
print(re.findall('[\u4e00-\u9fa5]','123AB*哈哈a\nbqe# _$'))   


"""
建议使用：　　[0-9]      [A-Za-z0-9_]      [\f\n\r\t\v ]     [^0-9]     [\u4e00-\u9fa5]

不建议使用：　　\d            \w                         \s             \D              \w
"""

二、匹配特殊含义符号

print(re.findall(r'\\','a\d\p\\'))      # ['\\', '\\', '\\']
print(re.findall(r'\\',r'a\b\c\\'))     # ['\\', '\\', '\\', '\\']

print(re.findall(r'\n','\n'))           # ['\n']
print(re.findall(r'\n','\\n'))          # []
print(re.findall(r'\d','\d'))           # []
print(re.findall(r'\\d','\d'))          # ['\\d']

# 正则匹配的步骤
re_obj = re.compile(r'\n')    # 转换成匹配换行的正则对象
res = re_obj.findall('\n')
print(res)    # ['\n']

re_obj = re.compile(r'\\d')    # 转换成匹配\d的正则对象
res= re_obj.findall('\d')
print(res)    # ['\\d']

re_obj = re.compile(r'\d')      # 转换成匹配 数字 的正则对象
res = re_obj.findall('\d')      # \d 不是数字
print(res)    # []

re_obj = re.compile(r'\\n')     # 转换成匹配正则 \n 的正则对象
res = re_obj.findall('\n')      # 代表换行，不能被匹配
print(res)    # []
res = re_obj.findall(r'\n')     # 代表\n，能被匹配
print(res)    # ['\\n']

三、匹配多个字符

# {n}
print(re.findall(r'a','abacbab'))           #  ['a', 'a', 'a']
print(re.findall(r'a{2}','aababaabcaa'))    # ['aa', 'aa', 'aa']
print(re.findall(r'ab','aababaabcaa'))      # ['ab', 'ab', 'ab']
print(re.findall(r'a{2}b','aababaabcaa'))   # ['aab', 'aab']

# 贪婪匹配
# {n,} 匹配到n到无数个  题中最少匹配abb, 贪婪匹配 abbb 能被匹配为 abb 和 abbb，优先匹配多的
print(re.findall(r'ab{2,}','ababbabbbabbbb'))   # ['abb', 'abbb', 'abbbb']

# {，n}匹配0到n个，优先匹配最多个
print(re.findall(r'ab{,2}', 'aababbabbbabbbb'))   # ['a', 'ab', 'abb', 'abb', 'abb']

# {n,m} 匹配从n到m个
print(re.findall(r'ab{1,3}', 'aababbabbbabbbb'))  # ['ab', 'abb', 'abbb', 'abbb']

# 特殊符号的重复
# *：匹配0到无数个
print(re.findall(r'ab*', 'aababbabbbabbbb'))     # ['a', 'ab', 'abb', 'abbb', 'abbbb']
# +：匹配1到无数个
print(re.findall(r'ab+', 'aababbabbbabbbb'))     # ['ab', 'abb', 'abbb', 'abbbb']
# ?: 匹配0到1个
print(re.findall(r'ab?', 'aababbabbbabbbb'))     # ['a', 'ab', 'ab', 'ab', 'ab']

# 匹配所有单词       \b代表单词边界，用空格（字符串的结尾也包括）作为匹配规则
print(re.findall(r'[a-z]+','abc def hello print'))   # ['abc', 'def', 'hello', 'print']
print(re.findall(r'[a-z]+\b','abc def hello print'))   # ['abc', 'def', 'hello', 'print']
 
print(re.findall(r'[a-z]*c','abc def hello print aca'))     # ['abc', 'ac']
print(re.findall(r'[a-z]*c\b','abc def hello print aca'))   # ['abc']

四、多行匹配

# 多行匹配
# ['http://www.baidu.com', 'https://youku.com']
s = """http://www.baidu.com
https://sina.com.cn
https://youku.com
haam
abchttp://www.oldboy.com
"""
# ^代表以什么开头，$代表以什么结尾，必须结合flags = re.M来完成多行匹配
print(re.findall(r'^http.+com$', s, flags=re.M))   # ['http://www.baidu.com', 'https://youku.com']

五、分组

# ()代表分组 findall匹配，如果匹配规则拥有分组语法，只存放分组结果
# 分组的编号：分组的顺序标号按照左括号的前后顺序
url = 'https://www.baidu.com, http://www.youku.com'
# 需求：拿到url的域名的  baidu , youku
print(re.findall(r'www.([a-z]+).com',url))   # ['baidu', 'youku']

print(re.findall(r'((www).([a-z]+).com)',url))  # [('www.baidu.com', 'www', 'baidu'), ('www.youku.com', 'www', 'youku')]

# 专门处理分组的方法：分组，分组编号，有名分组，取消分组
# 取消分组：必须写()，但是()为分组语法，我们知识想通过()将一些数据作为整体，所以()必须，再取消分组即可
# (?:)取消分组只是作为整体    (?P<名字>)  有名分组

url = 'www.baidu.com,www.youku.com'
res = re.match(r'((?:www).(?P<name>[a-z]+).com)',url)
print(res)                # <_sre.SRE_Match object; span=(0, 13), match='www.baidu.com'>
print(res.group(1))       # www.baidu.com
print(res.group(2))       # # baidu
print(res.group('name'))  # baidu

六、拆分和替换

s = 'a b ac def'
print(s.split(' '))   # ['a', 'b', 'ac', 'def']
# 正则拆分
s = 'a b,ac@def'
print(re.split(r' ,@',s))   # ['a b,ac@def']

# re.sub(A,B，C)  A;原来的在C内部的字符串  B:替换B的字符串   C:原来的字符串
s = 'python abc python'
print(re.sub('python','Python',s))  # Python abc Python
print(re.sub('python','Python',s,count=1))  # Python abc python

# 结合分组可以信息的重组与替换
s = 'day a good!!!'
print(re.sub('(day) (a) (good)',r'today is \2 \3 \1 \1',s)) # today is a good day day!!!

posted on 2021-06-08 13:09 软饭攻城狮阅读(117) 评论(0) 收藏举报

刷新页面返回顶部

五、re

一、匹配单个字符

二、匹配特殊含义符号

三、匹配多个字符

四、多行匹配

五、分组

六、拆分和替换

导航

公告