五、re
正则:是有语法的字符串,用来匹配目标字符串的
正则匹配步骤:
1. 将r' '的正则语法字符串转换成正则对象
2. 将转换后的正则对象来匹配目标字符串
# re.I 不区分大小写的匹配 print(re.findall(r'a','123AB*abqe# _$', flags=re.I)) # ['A', 'a'] # a|b == [ab] 匹配 a 或 b 单个字符 print(re.findall(r'a|b','123AB*abqe# _$',flags=re.I)) # ['A', 'B', 'a', 'b'] print(re.findall(r'[ab]','123AB*abqe# _$',flags=re.I)) # ['A', 'B', 'a', 'b'] #[^ab]非 a 及非 b 的所有单个字符 print(re.findall(r'[^ab]','123AB*abqe# _$')) # ['1', '2', '3', 'A', 'B', '*', 'q', 'e', '#', ' ', '_', '$'] # [a-z]所有小写字母,[A-Z]所有大写字母,[0-9]所有单个数字 print(re.findall(r'[a-z]','123AB*abqe# _$')) # ['a', 'b', 'q', 'e'] print(re.findall(r'[0-9]','123AB*abqe# _$')) # ['1', '2', '3'] print(re.findall(r'[a-z]|[A-Z]|[0-9]','123AB*abqe# _$')) # ['1', '2', '3', 'A', 'B', 'a', 'b', 'q', 'e'] print(re.findall(r'[a-zA-Z0-9]','123AB*abqe# _$')) # ['1', '2', '3', 'A', 'B', 'a', 'b', 'q', 'e'] # . 会匹配出\n意外的所有单个字符 re.S会让 . 匹配所有单个字符 print(re.findall(r'.','123AB*a\nbqe# _$')) # ['1', '2', '3', 'A', 'B', '*', 'a', 'b', 'q', 'e', '#', ' ', '_', '$'] print(re.findall(r'.','123AB*a\nbqe# _$',re.S)) # ['1', '2', '3', 'A', 'B', '*', 'a', '\n', 'b', 'q', 'e', '#', ' ', '_', '$'] # \d单个数字 == [0-9] \D取非数字的所有字符 print(re.findall(r'\d','123AB*a\nbqe# _$')) # ['1', '2', '3'] print(re.findall(r'\D','123AB*a\nbqe# _$')) # ['A', 'B', '*', 'a', '\n', 'b', 'q', 'e', '#', ' ', '_', '$'] # \w == [a-zA-Z0-9_] 将常见的汉字理解为单个字母 \W去反 print(re.findall(r'\w','123AB*哈哈a\nbqe# _$')) # ['1', '2', '3', 'A', 'B', '哈', '哈', 'a', 'b', 'q', 'e', '_'] print(re.findall(r'\W','123AB*哈哈a\nbqe# _$')) # ['*', '\n', '#', ' ', '$'] # \s == [\f\n\r\t\v ] 单个空,制表符、换页符 \S去反 print(re.findall(r'\s','\f\n\r\t\v ')) # ['\x0c', '\n', '\r', '\t', '\x0b', ' '] print(re.findall(r'\S','\f\n\r\t\v ')) # [] # 单个汉字 [\u4e00-\u9fa5] print(re.findall('[\u4e00-\u9fa5]','123AB*哈哈a\nbqe# _$')) """ 建议使用: [0-9] [A-Za-z0-9_] [\f\n\r\t\v ] [^0-9] [\u4e00-\u9fa5] 不建议使用: \d \w \s \D \w """
print(re.findall(r'\\','a\d\p\\')) # ['\\', '\\', '\\'] print(re.findall(r'\\',r'a\b\c\\')) # ['\\', '\\', '\\', '\\'] print(re.findall(r'\n','\n')) # ['\n'] print(re.findall(r'\n','\\n')) # [] print(re.findall(r'\d','\d')) # [] print(re.findall(r'\\d','\d')) # ['\\d'] # 正则匹配的步骤 re_obj = re.compile(r'\n') # 转换成匹配换行的正则对象 res = re_obj.findall('\n') print(res) # ['\n'] re_obj = re.compile(r'\\d') # 转换成匹配\d的正则对象 res= re_obj.findall('\d') print(res) # ['\\d'] re_obj = re.compile(r'\d') # 转换成匹配 数字 的正则对象 res = re_obj.findall('\d') # \d 不是数字 print(res) # [] re_obj = re.compile(r'\\n') # 转换成匹配正则 \n 的正则对象 res = re_obj.findall('\n') # 代表换行,不能被匹配 print(res) # [] res = re_obj.findall(r'\n') # 代表\n,能被匹配 print(res) # ['\\n']
# {n} print(re.findall(r'a','abacbab')) # ['a', 'a', 'a'] print(re.findall(r'a{2}','aababaabcaa')) # ['aa', 'aa', 'aa'] print(re.findall(r'ab','aababaabcaa')) # ['ab', 'ab', 'ab'] print(re.findall(r'a{2}b','aababaabcaa')) # ['aab', 'aab'] # 贪婪匹配 # {n,} 匹配到n到无数个 题中最少匹配abb, 贪婪匹配 abbb 能被匹配为 abb 和 abbb,优先匹配多的 print(re.findall(r'ab{2,}','ababbabbbabbbb')) # ['abb', 'abbb', 'abbbb'] # {,n}匹配0到n个,优先匹配最多个 print(re.findall(r'ab{,2}', 'aababbabbbabbbb')) # ['a', 'ab', 'abb', 'abb', 'abb'] # {n,m} 匹配从n到m个 print(re.findall(r'ab{1,3}', 'aababbabbbabbbb')) # ['ab', 'abb', 'abbb', 'abbb'] # 特殊符号的重复 # *:匹配0到无数个 print(re.findall(r'ab*', 'aababbabbbabbbb')) # ['a', 'ab', 'abb', 'abbb', 'abbbb'] # +:匹配1到无数个 print(re.findall(r'ab+', 'aababbabbbabbbb')) # ['ab', 'abb', 'abbb', 'abbbb'] # ?: 匹配0到1个 print(re.findall(r'ab?', 'aababbabbbabbbb')) # ['a', 'ab', 'ab', 'ab', 'ab'] # 匹配所有单词 \b代表单词边界,用空格(字符串的结尾也包括)作为匹配规则 print(re.findall(r'[a-z]+','abc def hello print')) # ['abc', 'def', 'hello', 'print'] print(re.findall(r'[a-z]+\b','abc def hello print')) # ['abc', 'def', 'hello', 'print'] print(re.findall(r'[a-z]*c','abc def hello print aca')) # ['abc', 'ac'] print(re.findall(r'[a-z]*c\b','abc def hello print aca')) # ['abc']
# 多行匹配 # ['http://www.baidu.com', 'https://youku.com'] s = """http://www.baidu.com https://sina.com.cn https://youku.com haam abchttp://www.oldboy.com """ # ^代表以什么开头,$代表以什么结尾,必须结合flags = re.M来完成多行匹配 print(re.findall(r'^http.+com$', s, flags=re.M)) # ['http://www.baidu.com', 'https://youku.com']
# ()代表分组 findall匹配,如果匹配规则拥有分组语法,只存放分组结果 # 分组的编号:分组的顺序标号按照左括号的前后顺序 url = 'https://www.baidu.com, http://www.youku.com' # 需求:拿到url的域名的 baidu , youku print(re.findall(r'www.([a-z]+).com',url)) # ['baidu', 'youku'] print(re.findall(r'((www).([a-z]+).com)',url)) # [('www.baidu.com', 'www', 'baidu'), ('www.youku.com', 'www', 'youku')] # 专门处理分组的方法:分组,分组编号,有名分组,取消分组 # 取消分组:必须写(),但是()为分组语法,我们知识想通过()将一些数据作为整体,所以()必须,再取消分组即可 # (?:)取消分组只是作为整体 (?P<名字>) 有名分组 url = 'www.baidu.com,www.youku.com' res = re.match(r'((?:www).(?P<name>[a-z]+).com)',url) print(res) # <_sre.SRE_Match object; span=(0, 13), match='www.baidu.com'> print(res.group(1)) # www.baidu.com print(res.group(2)) # # baidu print(res.group('name')) # baidu
s = 'a b ac def' print(s.split(' ')) # ['a', 'b', 'ac', 'def'] # 正则拆分 s = 'a b,ac@def' print(re.split(r' ,@',s)) # ['a b,ac@def'] # re.sub(A,B,C) A;原来的在C内部的字符串 B:替换B的字符串 C:原来的字符串 s = 'python abc python' print(re.sub('python','Python',s)) # Python abc Python print(re.sub('python','Python',s,count=1)) # Python abc python # 结合分组可以信息的重组与替换 s = 'day a good!!!' print(re.sub('(day) (a) (good)',r'today is \2 \3 \1 \1',s)) # today is a good day day!!!