python基础—正则表达式和re模块

一、正则表达式

1.正则表达式概念

概念：匹配字符串内容的一种规则

官方定义：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

正则表达式在线测试工具http://tool.chinaz.com/regex/

注意：正则表达式只与字符串相关

不管以后你是不是去做python开发，只要你是一个程序员就应该了解正则表达式的基本使用。如果未来你要在爬虫领域发展，你就更应该好好学习这方面的知识。
但是你要知道，re模块本质上和正则表达式没有一毛钱的关系。re模块和正则表达式的关系 类似于 time模块和时间的关系
你没有学习python之前，也不知道有一个time模块，但是你已经认识时间了 12:30就表示中午十二点半（这个时间可好，一般这会儿就该下课了）。
时间有自己的格式，年月日时分秒，12个月，365天......已经成为了一种规则。你也早就牢记于心了。time模块只不过是python提供给我们的可以方便我们操作时间的一个工具而已

正则表达式和re的关系

2.正则表达式的规则：

字符组：

[] 描述的是一个字符位置上的内容规则（更灵活）

字符组 ： [字符组]
在同一个位置可能出现的各种字符组成了一个字符组，在正则表达式中用[]表示
字符分为很多类，比如数字、字母、标点等等。
假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。

注意点：

[0-9],[5-9],[a-z],[A-Z]不能从大到小规定范围，

字符组内所有的范围是根据ascii码来确定的

字符组中，-是有特殊意义的，取消特殊意义，需要使用\转义

非字符组：

[^] 匹配非括号内的所有内容

如：[^123]:匹配非数字123的所有

元字符：

元字符	匹配内容
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线
\s	匹配任意的空白符
\d	匹配数字
\n	匹配一个换行符
\t	匹配一个制表符
\b	匹配一个单词的结尾
^	匹配字符串的开始
$	匹配字符串的结尾
\W	匹配非字母或数字或下划线
\D	匹配非数字
\S	匹配非空白符
a\|b	匹配字符a或字符b
()	匹配括号内的表达式，也表示一个组
[...]	匹配字符组中的字符
[^...]	匹配除了字符组中字符的所有字符

量词：

量词	用法说明
*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

分组 () 和或 |

如：www\.(baidu|oldboy)\.com

分组 ()

使用场景：

一组内容，需要整体约束出现次数的时候。
在和 " | " 连用的时候，前后固定，中间位置二选一。

正则	待匹配字符	匹配结果	说明
^[1-9]\d{13,16}[0-9x]$	110101198001017032	110101198001017032	表示可以匹配一个正确的身份证号
^[1-9]\d{13,16}[0-9x]$	1101011980010170	1101011980010170	表示也可以匹配这串数字，但这并不是一个正确的身份证号码，它是一个16位的数字
^[1-9]\d{14}(\d{2}[0-9x])?$	1101011980010170	False	现在不会匹配错误的身份证号了 ()表示分组，将\d{2}[0-9x]分成一组，就可以整体约束他们出现的次数为0-1次
^([1-9]\d{16}[0-9x]\|[1-9]\d{14})$	110105199812067023	110105199812067023	表示先匹配[1-9]\d{16}[0-9x]如果没有匹配上就匹配[1-9]\d{14}

3.贪婪与非贪婪匹配

贪婪匹配

在满足匹配时，匹配尽可能长的字符串，默认情况下，采用贪婪匹配

贪婪匹配：比如匹配 a.*x

利用的是回溯算法：从a开始匹配，一直匹配任意字符，无论是否为x，匹配完所有字符后，发现 * 后面有个x，又回过头来找x，找到x就立即停止。

待匹配字符	匹配结果	说明
<.*>	<script>...<script>	<script>...<script>	默认为贪婪匹配模式，会匹配尽量长的字符串
<.*?>	r'\d'	<script> <script>	加上？为将贪婪匹配模式转为非贪婪匹配模式，会匹配尽量短的字符串

非贪婪匹配

在满足匹配时，匹配尽可能少的字符串，需要在量词后面使用问号。

非贪婪匹配：a.*?x

从a开始匹配，匹配任意长度字符，?的作用是时刻检查下一个字符是否为x，如果是x则立马停止。

几个常用的非贪婪匹配pattern

*? 重复任意次，但尽可能少重复
+? 重复1次或更多次，但尽可能少重复
?? 重复0次或1次，但尽可能少重复
{n,m}? 重复n到m次，但尽可能少重复
{n,}? 重复n次以上，但尽可能少重复

.*?的用法

. 是任意字符
* 是取 0 至 无限长度
? 是非贪婪模式。
何在一起就是 取尽量少的任意字符，一般不会这么单独写，他大多用在：
.*?x
就是取前面任意长度的字符，直到一个x出现

4.转义符 \

在正则表达式中，有很多有特殊意义的是元字符，比如\n和\s等，如果要在正则中匹配正常的"\n"而不是"换行符"就需要对"\"进行转义，变成'\\'。

在python中，无论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串中\也有特殊的含义，本身还需要转义。所以如果匹配一次"\n",字符串中要写成'\\n'，那么正则里就要写成"\\\\n",这样就太麻烦了。这个时候我们就用到了r'\n'这个概念，此时的正则是r'\\n'就可以了。

正则	待匹配字符	匹配结果	说明
\n	\n	False	因为在正则表达式中\是有特殊意义的字符，所以要匹配\n本身，用表达式\n无法匹配
\\n	\n	True	转义\之后变成\\，即可匹配
"\\\\n"	'\\n'	True	如果在python中，字符串中的'\'也需要转义，所以每一个字符串'\'又需要转义一次
r'\\n'	r'\n'	True	在字符串之前加r，让整个字符串不转义

二、re模块

re模块作用：python中用来帮助我们根据正则规则从一段内容中查找结果的工具

1.re模块常用方法

re.findall(regex,str): 找到所有满足规则的内容
re.search(regex,str): 找到满足条件的第一个，返回一个结果对象，找不到返回None。返回值：<re.Match object; span=(4, 7), match='123'>：span是找到内容的索引，前开后闭返回值存在的情况下：用.group()获取他的值，不存在的情况.group()方法会报错
re.match(regex,str): 从开头找满足规则的第一个内容，返回一个结果对象，找不到返回None。（很少用，能被search取代）返回值：<re.Match object; span=(4, 7), match='123'>：span是找到内容的索引，前开后闭返回值存在的情况下：用.group()获取他的值，不存在的情况.group()方法会报错
re.compile(regex): 返回一个编译之后的对象，该对象有几个方法：
- .findall(str, flag)
- .finditer(str, flag)
- .search(str, flag)

flags有很多可选值：
    re.I(IGNORECASE)忽略大小写，括号内是完整的写法
    re.M(MULTILINE)多行模式，改变^和$的行为
    re.S(DOTALL)点可以匹配任意字符，包括换行符
    re.L(LOCALE)做本地化识别的匹配，表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境，不推荐使用
    re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag
    re.X(VERBOSE)冗长模式，该模式下pattern字符串可以是多行的，忽略空白字符，并可以添加注释

re.finditer(regex,str): 返回一个迭代器，存储了所有'结果对象'，遍历后迭代器获得每一个结果对象，对每个结果对象使用.group()方法取值
re.sub(regex,new,str): 返回一个替换后的字符串
re.subn(regex,new,str): 返回替换后的字符串，和替换的次数
re.split(regex,str): 返回一个列表，根据正则匹配内容分割。

import re

ret = re.findall('a', 'eva egon yuan')  # 返回所有满足匹配条件的结果,放在列表里
print(ret) #结果 : ['a', 'a']

ret = re.search('a', 'eva egon yuan').group()
print(ret) #结果 : 'a'
# 函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以
# 通过调用group()方法得到匹配的字符串,如果字符串没有匹配，则返回None。

ret = re.match('a', 'abc').group()  # 同search,不过尽在字符串开始处进行匹配
print(ret)
#结果 : 'a'

ret = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret)  # ['', '', 'cd']

ret = re.sub('\d', 'H', 'eva3egon4yuan4', 1)#将数字替换成'H'，参数1表示只替换1个
print(ret) #evaHegon4yuan4

ret = re.subn('\d', 'H', 'eva3egon4yuan4')#将数字替换成'H'，返回元组(替换的结果,替换了多少次)
print(ret)

'''
节省时间角度上
# re.compile() 预编译
# 参数：pattern,flags
使用原因：re.findall('\d+','asdfasd2131')
每次findall计算机都需要去解析'\d+'，如果有n个待匹配的字符串，那就需要计算机解析n次'\d+'，这个时候我们需要将'\d+'这个正则规则进行预编译，在以后每次查找时，直接拿已经编译后的代码，可以节省大量程序执行的‘时间’。
'''
obj = re.compile('\d{3}')  #将正则表达式编译成为一个 正则表达式对象，规则要匹配的是3个数字
ret = obj.search('abc123eeee') #正则表达式对象调用search，参数为待匹配的字符串
print(ret.group())  #结果 ： 123

'''
节省空间上
# re.finditer()
    返回一个存储了'结果对象'的迭代器，取值的时候需要遍历后在对每个结果对象使用.group()方法
    当使用findall找到的结果数量巨大的时候，返回的结果会很占用内存，这个时候我们就需要使用finditer
'''
import re
ret = re.finditer('\d', 'ds3sy4784a')   #finditer返回一个存放匹配结果的迭代器
print(ret)  # <callable_iterator object at 0x10195f940>
print(next(ret).group())  #查看第一个结果
print(next(ret).group())  #查看第二个结果
print([i.group() for i in ret])  #查看剩余的左右结果

re模块详细使用

re方法小结

'''
re方法总结：
匹配：
    findall
    search match 返回结果对象，用.group()取值
字符串的其他处理：不常用
    替换
    分割

进阶：
    时间上：使用compile预编译，能够提前编译一个正则表达式，当同一个正则需要多次使用的时候，可以节省时间。
    空间上：使用finditer返回一个迭代器，里面是一个一个结果结果对象，通过对结果对象.group取到每个值
'''

2.re模块的使用

分组在正则表达式中的使用

1.分组在findall当中默认会优先显示出来
2.在分组中开始加上 ?: 可以取消分组优先的设定
在爬虫\数据清洗的过程中最常用的正则表达式操作

s = '''
<h1>hahaha</h1>
<h2>wahaha</h2>
<title>qqxing</title>
'''

'>(\w+)<'
ret = re.findall('>(\w+)<',s)
print(ret)  # findall永远优先显示分组中的内容
# ['hahaha', 'wahaha', 'qqxing']


# 分组优先显示会遇到如下问题：找到所有数字，会把括号内优先返回，导致提取信息不符要求
ret = re.findall('\d+(\.\d+)?','1.23+2.34')
print(ret)  # ['.23', '.34']
'''
取消分组优先
    在不想分组的括号开头加上 ?: 可以取消分组优先显示的问题
'''
ret = re.findall('\d+(?:\.\d+)?','1.23+2.34')
print(ret)  # ['1.23', '2.34']

split和分组：

如果被用来分割的内容在分组中，则保留这个内容。

ret=re.split("\d+","eva3egon4yuan")
print(ret) #结果 ： ['eva', 'egon', 'yuan']

ret=re.split("(\d+)","eva3egon4yuan")
print(ret) #结果 ： ['eva', '3', 'egon', '4', 'yuan']

#在匹配部分加上（）之后所切出的结果是不同的，
#没有（）的没有保留所匹配的项，但是有（）的却能够保留了匹配的项，
#这个在某些需要保留匹配部分的使用过程是非常重要的。

search和分组：

search返回的结果不收分组的影响，但是可以通过序号索引分组内容，0代表所有组，1代表第一组，一次顺延

ret = re.search(r'<(\w+)>(\w+)</(\w+)>',r'<title>qqxing</title>')
print(ret.group())  # 不写默认是0，取全部
print(ret.group(1))
print(ret.group(2))

分组小结：

findall: 优先显示分组中的内容
split: 保留在分组中的分割符内容
search: 可以通过.group()索引分组内容的值
取消分组优先：(?:正则)

分组命名

在分组括号前输入：?P<名称> 就可为分组命名。

ret = re.search('<(?P<tag>\w+)>.*</(?P<content>\w+)>','<title>hahaha</title>')
print(ret.group(0))  # 不受分组影响
print(ret.group('tag'))  # 不受分组的影响
print(ret.group('content'))  # 不受分组影响

特殊的要求：网页中我们需要匹配成对的标签

s = '<h1>wahaha</h2></h2></h3>'

ret = re.search('<(?P<tag>\w+)>.*</(?P=tag)>','<h1>wahaha</h2></h1></h3>')
print(ret.group())

ret = re.search(r'<(?P<tag>\w+)>.*</\1>','<h1>wahaha</h2></h1></h3>')
print(ret.group())

使用匹配的tips：

当我们需要匹配的内容混在不相匹配内容中
只能把不想要匹配的东西也匹配出来，然后去掉不想要的，就可以拿到想要的内容。

3.练习扩展

1.匹配标签

import re


ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")
#还可以在分组中利用?<name>的形式给分组起名字
#获取的匹配结果可以直接用group('名字')拿到对应的值
print(ret.group('tag_name'))  #结果 ：h1
print(ret.group())  #结果 ：<h1>hello</h1>

ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")
#如果不给组起名字，也可以用\序号来找到对应的组，表示要找的内容和前面的组内容一致
#获取的匹配结果可以直接用group(序号)拿到对应的值
print(ret.group(1))
print(ret.group())  #结果 ：<h1>hello</h1>

匹配标签

2.匹配整数

import re

ret=re.findall(r"\d+","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '2', '60', '40', '35', '5', '4', '3']
ret=re.findall(r"-?\d+\.\d*|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '-2', '60', '', '5', '-4', '3']
ret.remove("")
print(ret) #['1', '-2', '60', '5', '-4', '3']

匹配整数

3.匹配数字

1、 匹配一段文本中的每行的邮箱  http://blog.csdn.net/make164492212/article/details/51656638
2、 匹配一段文本中的每行的时间字符串，比如：‘1990-07-12’；
   分别取出1年的12个月（^(0?[1-9]|1[0-2])$）、
   一个月的31天：^((0?[1-9])|((1|2)[0-9])|30|31)$
3、 匹配qq号。(腾讯QQ号从10000开始)  ［1,9］[0,9]{4,}
4、 匹配一个浮点数。       ^(-?\d+)(\.\d+)?$   或者  -?\d+\.?\d*
5、 匹配汉字。             ^[\u4e00-\u9fa5]{0,}$ 
6、 匹配出所有整数

数字匹配

3.爬虫练习

import requests

import re
import json

def getPage(url):

    response=requests.get(url)
    return response.text

def parsePage(s):
    
    com=re.compile('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
                   '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>',re.S)

    ret=com.finditer(s)
    for i in ret:
        yield {
            "id":i.group("id"),
            "title":i.group("title"),
            "rating_num":i.group("rating_num"),
            "comment_num":i.group("comment_num"),
        }

def main(num):

    url='https://movie.douban.com/top250?start=%s&filter='%num
    response_html=getPage(url)
    ret=parsePage(response_html)
    print(ret)
    f=open("move_info7","a",encoding="utf8")

    for obj in ret:
        print(obj)
        data=json.dumps(obj,ensure_ascii=False)
        f.write(data+"\n")

if __name__ == '__main__':
    count=0
    for i in range(10):
        main(count)
        count+=25

View Code

import re
import json
from urllib.request import urlopen

def getPage(url):
    response = urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    com = re.compile(
        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
        '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S)

    ret = com.finditer(s)
    for i in ret:
        yield {
            "id": i.group("id"),
            "title": i.group("title"),
            "rating_num": i.group("rating_num"),
            "comment_num": i.group("comment_num"),
        }


def main(num):
    url = 'https://movie.douban.com/top250?start=%s&filter=' % num
    response_html = getPage(url)
    ret = parsePage(response_html)
    print(ret)
    f = open("move_info7", "a", encoding="utf8")

    for obj in ret:
        print(obj)
        data = str(obj)
        f.write(data + "\n")

count = 0
for i in range(10):
    main(count)
    count += 25

简化版

简化版

flags有很多可选值：
re.I(IGNORECASE)忽略大小写，括号内是完整的写法
re.M(MULTILINE)多行模式，改变^和$的行为
re.S(DOTALL)点可以匹配任意字符，包括换行符
re.L(LOCALE)做本地化识别的匹配，表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境，不推荐使用
re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag
re.X(VERBOSE)冗长模式，该模式下pattern字符串可以是多行的，忽略空白字符，并可以添加注释

flags用法

作业

实现能计算类似 
1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )等类似公式的计算器程序

posted @ 2019-03-29 19:46 ryxiong728 阅读(339) 评论(0) 收藏举报

刷新页面返回顶部

何处繁花笙歌落

路漫漫其修远兮，吾将上下而求索

python基础—正则表达式和re模块

一、正则表达式

1.正则表达式概念

2.正则表达式的规则：

字符组：

非字符组：

元字符：

量词：

分组 () 和或 |

分组 ()

3.贪婪与非贪婪匹配

贪婪匹配

非贪婪匹配

4.转义符 \

二、re模块

1.re模块常用方法

2.re模块的使用

分组在正则表达式中的使用

split和分组：

search和分组：

分组命名

3.练习扩展

公告

何处繁花笙歌落

路漫漫其修远兮，吾将上下而求索

python基础—正则表达式和re模块

一、正则表达式

1.正则表达式概念

2.正则表达式的规则：

字符组：

非字符组：

元字符：

量词：

分组 () 和 或 |

分组 ()

3.贪婪与非贪婪匹配

贪婪匹配

非贪婪匹配

4.转义符 \

二、re模块

1.re模块常用方法

2.re模块的使用

分组在正则表达式中的使用

split和分组：

search和分组：

分组命名

3.练习扩展

公告

分组 () 和或 |