正则

正则的应用场景:     1.爬虫        2.数据分析
re模块与正则表达式之间的关系:
    正则表达式不是python独有的 它是一门独立的技术,是一种逻辑公式,所有编程语言都可以使用,但是如果你想在python中使用,你就必须依赖于re模块
正则:用来筛选字符中特定内容的;

-------------------------------------------------------------------------------------------------------------------------------------------------
元字符
.       匹配除换行符以外 的任意字符
\w      匹配数字,字母,下划线
\s　　　 匹配不可见字符
\d      匹配数字
\W      与上面相反
\S　　　 匹配非不可见字符
\D　　　 匹配非数字
\n      匹配换行符
\t      匹配制表符
\b      匹配单词结尾
^       匹配字符串的开始
$       匹配字符串的结尾
^ 与 $   连用   精准匹配  中间是什么就匹配什么
a|b     匹配字符或a或b  长前短后
[...]   匹配字符组中的字符
[^...]  匹配除了字符组中的字符
()      匹配括号内的表达式
**************************************************************************************************************************************************
量词:必须跟在正则符号后面
* {0,}
+ {1,}
? {0,1}
{n}    重复 n次
{n,}   重复n次或跟多次
{n,m}  重复n到m 次
-------------------------------------------------------------------------------------------------------------------------------------------------
贪婪匹配与非贪婪匹配

<.*>:先拿着里面的.*去匹配所有的内容，然后再根据>往回退着找，遇到即停止
<.*?>:先拿着?后面的>去匹配符合条件的最少的内容,然后把匹配的结果返回

-------------------------------------------------------------------------------------------------------------------------------------------------
三种方法

findall:找出字符串中符合正则表达式全部内容,并且返回一个列表,列表中是正则匹配到的结果
search:不会给你直接返回匹配到的结果,而是返回一个对象
       必须调用group才能看到匹配到的结果
       注:它只会依据正则查一次   只要查到结果   就不会往后查找;
          查不到  返回none   调用group直接报错  (none 没有...)
match:1.只会匹配字符串的开头部分,
      2.当字符串的开头不符合匹配规则的情况下,返回none,  调用group 报错
--------------------------------------------------------------------------------------------------------------------------------------------------
其他方法:

　　ret = re.split('[ab]', 'abcd') # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
　　print(ret) # ['', '', 'cd']

　　ret = re.sub('\d', 'H', 'eva3egon4yuan4', 1) # 将数字替换成'H'，参数1表示只替换1个
　　print(ret) # evaHegon4yuan4

　　ret = re.subn('\d', 'H', 'eva3egon4yuan4') # 将数字替换成'H'，返回元组(替换的结果,替换了多少次)
　　print(ret)

　　obj = re.compile('\d{3}') #将正则表达式编译成为一个正则表达式对象，规则要匹配的是3个数字
　　ret = obj.search('abc123eeee') #正则表达式对象调用search，参数为待匹配的字符串
　　print(ret.group()) #结果： 123

　　ret = re.finditer('\d', 'ds3sy4784a') #finditer返回一个存放匹配结果的迭代器
　　print(ret) # <callable_iterator object at 0x10195f940>
　　print(next(ret).group()) #查看第一个结果
　　print(next(ret).group()) #查看第二个结果
　　print([i.group() for i in ret]) #查看剩余的左右结果

==================================================================================================================================================

补充:

ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")
#还可以在分组中利用?<name>的形式给分组起名字
#获取的匹配结果可以直接用group('名字')拿到对应的值
print(ret.group('tag_name')) #结果：h1
print(ret.group()) #结果：<h1>hello</h1>
"""
注意?P=tag_name相当于引用之前正则表达式，并且匹配到的值必须和前面的正则表达式一模一样
"""

# 匹配整数
ret=re.findall(r"\d+","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '2', '60', '40', '35', '5', '4', '3']

ret=re.findall(r"\d+\.\d*|(\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '2', '60', '', '5', '4', '3']
ret.remove("")
print(ret) #['1', '2', '60', '5', '4', '3']

# 将目标字符串中的所以数字找出
data = '123abc呵呵'

res = re.findall(r'\d', data)  # \d就代表数字
print(res)  # ['1', '2', '3']

正则匹配步骤

import re
# 1.将r'\\'的正则语法字符串转换成 正则对象 '\', 用来匹配 '\' 字符的
# 2.拿着转换后的正则对象，来匹配目标字符串
print(re.findall(r'\\', r'a\d\p\\'))  # ['\\', '\\', '\\', '\\']


re_obj = re.compile(r'\n')  # 转换成匹配 换行符 的正则对象
res = re_obj.findall('\n')
print(res)  # ['\n']

re_obj = re.compile(r'\\d')  # 转换成匹配 \d 的正则对象
res = re_obj.findall('\d')
print(res)  # ['\\d']

re_obj = re.compile(r'\d')  # 转换成匹配 数字 的正则对象
res = re_obj.findall('\d')  # \d不是数字
print(res)  # []

re_obj = re.compile(r'\\n')  # 转换成匹配 \n 的正则对象
res = re_obj.findall('\n')  # 代表换行，不能被匹配
print(res)  # []
res = re_obj.findall(r'\n')  # 就代表\n，能被匹配
print(res)  # ['\\n']

单个字符

# re.I不区分大小写的匹配
print(re.findall(r'a', 'abc123嘿嘿abcABC', flags=re.I))  # ['a', 'a', 'A']

# a|b a或b单个字符
print(re.findall(r'a|b', 'abc123嘿嘿abcABC', flags=re.I))  # ['a', 'b', 'a', 'b', 'A', 'B']

# [a,b] a或,或b单个字符
print(re.findall(r'[a,b]', 'abc,123嘿嘿abcABC', flags=re.I))  # ['a', 'b', ',', 'a', 'b', 'A', 'B']

# [^ab]非a及非b的所有单个字符
print(re.findall(r'[^ab]', 'abc,123嘿嘿abcABC'))  # ['c', ',', '1', '2', '3', '嘿', '嘿', 'c', 'A', 'B', 'C']

# [a-z]所有单个小写字母   [A-Z]所有单个大写字母   [0-9]所有单个数字
print(re.findall(r'[a-z]', 'abc,123嘿嘿abcABC'))  # ['a', 'b', 'c', 'a', 'b', 'c']
print(re.findall(r'[0-9]', 'abc,123嘿嘿abcABC'))  # ['1', '2', '3']

# 所有小写大写数字单个字符
print(re.findall(r'[a-z]|[A-Z]|[0-9]', 'abc,123嘿嘿abcABC'))  # ['a', 'b', 'c', '1', '2', '3', 'a', 'b', 'c', 'A', 'B', 'C']

print(re.findall(r'[A-Za-z0-9]', 'abc,123嘿嘿[abcABC'))  # ['a', 'b', 'c', '1', '2', '3', 'a', 'b', 'c', 'A', 'B', 'C']

# .会匹配除\n以为的所有单个字符
print(re.findall(r'.', '*\_+=\n \r\t'))  # ['*', '\\', '_', '+', '=', ' ', '\r', '\t']

# re.S会让.能匹配所有单个字符
print(re.findall(r'.', '*\_+=\n \r\t', flags=re.S))  # ['*', '\\', '_', '+', '=', '\n', ' ', '\r', '\t']

# \d单个数字 == [0-9]
print(re.findall(r'\d', 'abc,123嘿嘿[abcABC'))  # ['1', '2', '3']
# \w == [A-Za-z0-9_]  将常见的汉字就理解为单个字母

print(re.findall(r'\w', 'abc,123嘿[_'))  # ['a', 'b', 'c', '1', '2', '3', '嘿', '_']
# \s == [\f\n\r\t\v ] 单个空：空格、制表符、换页符等

print(re.findall(r'\s', '\f\n\r\t\v '))  # ['\x0c', '\n', '\r', '\t', '\x0b', ' ']

# \D就是\d的对立面：非数字的所有单个字符  \W就是\w的对立面  \S就是\s的对立面
print(re.findall(r'\D', 'abc,123嘿[_'))  # ['a', 'b', 'c', ',', '嘿', '[', '_']


# 单个汉字 [\u4e00-\u9fa5]
print(re.findall(r'[\u4e00-\u9fa5]', 'abc,123嘿[_'))  # ['嘿']

# 建议使用  [0-9]  [A-Za-z0-9_]  [\f\n\r\t\v ]  [^0-9]  [\u4e00-\u9fa5]
# 不建议使用 \d            \w            \s             \D            \w

多个字符

# 明确个数的重复
# {n}
print(re.findall(r'a', 'aaabbb'))  # ['a', 'a', 'a']
print(re.findall(r'a{2}', 'aaabbb'))  # ['aa']
print(re.findall(r'ab', 'aabbababab'))  # ['ab', 'ab', 'ab', 'ab']
print(re.findall(r'a{2}b{2}', 'aabbababab'))  # ['aabb']
print(re.findall(r'ab{2}', 'aabbababab'))  # ['abb']

# {n,}  匹配n到无数个，题中最少匹配abb, 贪婪匹配 abbb 能被匹配为 abb 和 abbb，优先匹配多的
print(re.findall(r'ab{2,}', 'ababbabbbabbbb'))  # ['abb', 'abbb', 'abbbb']

# {,n} 匹配0到n个，ab{,2} 优先匹配abb，没有ab也行，如果还没有a也将就
print(re.findall(r'ab{,2}', 'aababbabbbabbbb'))  # ['a', 'ab', 'abb', 'abb', 'abb']

# {n,m} 匹配n到m个，ab{1,3} 优先匹配 abbb，再考虑abb, ab
print(re.findall(r'ab{1,3}', 'aababbabbbabbbb'))  # ['ab', 'abb', 'abbb', 'abbb']

# 特殊符号的重复
# *: 匹配0到无数个
print(re.findall(r'ab*', 'aababbabbbabbbb'))  # ['a', 'ab', 'abb', 'abbb', 'abbbb']
# +: 匹配1到无数个
print(re.findall(r'ab+', 'aababbabbbabbbb'))  # ['ab', 'abb', 'abbb', 'abbbb']
# ?: 匹配0到1个
print(re.findall(r'ab?', 'aababbabbbabbbb'))  # ['a', 'ab', 'ab', 'ab', 'ab']


# 需求：匹配所以单词
print(re.findall(r'[a-z]+', 'abc def hello print'))  # ['abc', 'def', 'hello', 'print']
print(re.findall(r'[a-z]+\b', 'abc def hello print'))  # ['abc', 'def', 'hello', 'print']

# \b代表单词边界，用空格(字符串的结尾也包括)作为匹配规则
print(re.findall(r'[a-z]*c', 'abc def hello print acb zc'))  # ['abc', 'ac', 'zc']
print(re.findall(r'[a-z]*c\b', 'abc def hello print acb zc'))  # ['abc', 'zc']

多行匹配

import re
s = """http://www.baidu.com
https://sina.com.cn
https://youku.com
haam
abchttp://www.oldboy.com
"""
# ^代表以什么开头，$代表以什么结尾，必须结合flags=re.M来完成多行匹配
print(re.findall(r'^http.+com$', s, re.M))  # ['http://www.baidu.com', 'https://youku.com']

分组

import re

url = 'https://www.baidu.com, http://www.youku.com'
# 需求：拿到url的域名的  baidu , youku
print(re.findall(r'www.([a-z]+).com', url))  # ['baidu', 'youku']

# ()代表分组
# findall匹配，如果匹配规则用有分组语法，只存放分组结果
print(re.findall(r'(www).([a-z]+).com', url))  # [('www', 'baidu'), ('www', 'youku')]

# 分组的编号：分组的顺序编号按照左括号的前后顺序
print(re.findall(r'(((w)ww).([a-z]+).com)', url))  # [('www.baidu.com', 'www', 'w', 'baidu'), ('www.youku.com', 'www', 'w', 'youku')]


# findall是全文匹配，可以从任意位置开始，匹配多次
# match非全文匹配，必须从头开始匹配，只能匹配一次

# 专门处理分组的方法：分组，分组编号，有名分组，取消分组
# 取消分组: 必须写()，但是()为分组语法，我们只是想通过()将一些数据作为整体，所以()必须，再取消分组即可
# (?:) 取消分组只是作为整体   (?P<名字>) 有名分组
url = 'www.baidu.com,www.youku.com'
res = re.match(r'((?:www).(?P<name>[a-z]+).com)', url)
# print(res)  # <_sre.SRE_Match object; span=(0, 13), match='www.baidu.com'>
print(res.group(1))  # www.baidu.com
print(res.group(2))  # baidu
print(res.group('name'))  # baidu

拆分与替换

import re

s = 'a b ac def'
print(s.split(' '))  # ['a', 'b', 'ac', 'def']

# 正则拆分
s = 'a b,ac@def'
print(re.split(r'[ ,@]', s))  # ['a', 'b', 'ac', 'def']


s = 'python abc python'
print(re.sub('python', 'Python', s))  # Python abc Python
print(re.sub('python', 'Python', s, count=1))  # Python abc python


# 结合分组可以完成信息的重组与替换
s = 'day a good!!!'  # 'a good good day'
print(re.sub('(day) (a) (good)', r'today is \2 \3 \3 \1', s))

posted @ 2019-07-17 19:40 54菜鸟阅读(232) 评论(0) 收藏举报

刷新页面返回顶部

54菜鸟

正则

公告