python基础—正则表达式和re模块

一、正则表达式

1.正则表达式概念

概念:匹配字符串内容的一种规则

官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

正则表达式在线测试工具http://tool.chinaz.com/regex/

注意:正则表达式只与字符串相关

不管以后你是不是去做python开发,只要你是一个程序员就应该了解正则表达式的基本使用。如果未来你要在爬虫领域发展,你就更应该好好学习这方面的知识。
但是你要知道,re模块本质上和正则表达式没有一毛钱的关系。re模块和正则表达式的关系 类似于 time模块和时间的关系
你没有学习python之前,也不知道有一个time模块,但是你已经认识时间了 12:30就表示中午十二点半(这个时间可好,一般这会儿就该下课了)。
时间有自己的格式,年月日时分秒,12个月,365天......已经成为了一种规则。你也早就牢记于心了。time模块只不过是python提供给我们的可以方便我们操作时间的一个工具而已
正则表达式和re的关系

2.正则表达式的规则:

字符组

[] 描述的是一个字符位置上的内容规则(更灵活)

字符组 : [字符组]
在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示
字符分为很多类,比如数字、字母、标点等等。
假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。

注意点:

[0-9],[5-9],[a-z],[A-Z]不能从大到小规定范围,

字符组内所有的范围是根据ascii码来确定的

字符组中,-是有特殊意义的,取消特殊意义,需要使用\转义

 非字符组:

[^] 匹配非括号内的所有内容

如:[^123]:匹配非数字123的所有

元字符:

 
元字符
 
匹配内容
匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线
\s 匹配任意的空白符
\d 匹配数字
\n 匹配一个换行符
\t 匹配一个制表符
\b 匹配一个单词的结尾
^ 匹配字符串的开始
$ 匹配字符串的结尾
\W
匹配非字母或数字或下划线
\D
匹配非数字
\S
匹配非空白符
a|b
匹配字符a或字符b
()
匹配括号内的表达式,也表示一个组
[...]
匹配字符组中的字符
[^...]
匹配除了字符组中字符的所有字符

量词: 

量词
用法说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

分组 () 和 或 |

如:www\.(baidu|oldboy)\.com

分组 ()

使用场景:

  • 一组内容,需要整体约束出现次数的时候。
  • 在和 " | " 连用的时候,前后固定,中间位置二选一。
正则 待匹配字符 匹配
结果
说明
^[1-9]\d{13,16}[0-9x]$ 110101198001017032

110101198001017032

   表示可以匹配一个正确的身份证号
^[1-9]\d{13,16}[0-9x]$ 1101011980010170

1101011980010170

表示也可以匹配这串数字,但这并不是一个正确的身份证号码,它是一个16位的数字
^[1-9]\d{14}(\d{2}[0-9x])?$ 1101011980010170

False

现在不会匹配错误的身份证号了
()表示分组,将\d{2}[0-9x]分成一组,就可以整体约束他们出现的次数为0-1次
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$ 110105199812067023

110105199812067023

表示先匹配[1-9]\d{16}[0-9x]如果没有匹配上就匹配[1-9]\d{14}

3.贪婪与非贪婪匹配

贪婪匹配

在满足匹配时,匹配尽可能长的字符串,默认情况下,采用贪婪匹配

贪婪匹配:比如匹配 a.*x

  • 利用的是回溯算法:从a开始匹配,一直匹配任意字符,无论是否为x,匹配完所有字符后,发现 * 后面有个x,又回过头来找x,找到x就立即停止。
待匹配字符 匹配
结果
说明
<.*>

<script>...<script>

<script>...<script>
默认为贪婪匹配模式,会匹配尽量长的字符串
<.*?> r'\d'  

<script>
<script>

加上?为将贪婪匹配模式转为非贪婪匹配模式,会匹配尽量短的字符串

非贪婪匹配

在满足匹配时,匹配尽可能少的字符串,需要在量词后面使用问号。

非贪婪匹配:a.*?x

  • 从a开始匹配,匹配任意长度字符,?的作用是时刻检查下一个字符是否为x,如果是x则立马停止。

几个常用的非贪婪匹配pattern

*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复

.*?的用法

. 是任意字符
* 是取 0 至 无限长度
? 是非贪婪模式。
何在一起就是 取尽量少的任意字符,一般不会这么单独写,他大多用在:
.*?x
就是取前面任意长度的字符,直到一个x出现

4.转义符 \

在正则表达式中,有很多有特殊意义的是元字符,比如\n和\s等,如果要在正则中匹配正常的"\n"而不是"换行符"就需要对"\"进行转义,变成'\\'。

在python中,无论是正则表达式,还是待匹配的内容,都是以字符串的形式出现的,在字符串中\也有特殊的含义,本身还需要转义。所以如果匹配一次"\n",字符串中要写成'\\n',那么正则里就要写成"\\\\n",这样就太麻烦了。这个时候我们就用到了r'\n'这个概念,此时的正则是r'\\n'就可以了。

正则 待匹配字符 匹配
结果
说明
\n \n  False
因为在正则表达式中\是有特殊意义的字符,所以要匹配\n本身,用表达式\n无法匹配
\\n \n  True
转义\之后变成\\,即可匹配
"\\\\n" '\\n'  True
如果在python中,字符串中的'\'也需要转义,所以每一个字符串'\'又需要转义一次
r'\\n' r'\n'  True
在字符串之前加r,让整个字符串不转义

二、re模块

re模块作用:python中用来帮助我们根据正则规则从一段内容中查找结果的工具

1.re模块常用方法

  • re.findall(regex,str): 找到所有满足规则的内容
  • re.search(regex,str): 找到满足条件的第一个,返回一个结果对象,找不到返回None。返回值:<re.Match object; span=(4, 7), match='123'>:span是找到内容的索引,前开后闭返回值存在的情况下:用.group()获取他的值,不存在的情况.group()方法会报错
  • re.match(regex,str): 从开头找满足规则的第一个内容,返回一个结果对象,找不到返回None。(很少用,能被search取代)返回值:<re.Match object; span=(4, 7), match='123'>:span是找到内容的索引,前开后闭返回值存在的情况下:用.group()获取他的值,不存在的情况.group()方法会报错
  • re.compile(regex): 返回一个编译之后的对象,该对象有几个方法:
    • .findall(str, flag)
    • .finditer(str, flag)
    • .search(str, flag)
flags有很多可选值:
    re.I(IGNORECASE)忽略大小写,括号内是完整的写法
    re.M(MULTILINE)多行模式,改变^和$的行为
    re.S(DOTALL)点可以匹配任意字符,包括换行符
    re.L(LOCALE)做本地化识别的匹配,表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境,不推荐使用
    re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag
    re.X(VERBOSE)冗长模式,该模式下pattern字符串可以是多行的,忽略空白字符,并可以添加注释
  • re.finditer(regex,str): 返回一个迭代器,存储了所有'结果对象',遍历后迭代器获得每一个结果对象,对每个结果对象使用.group()方法取值

  • re.sub(regex,new,str): 返回一个替换后的字符串

  • re.subn(regex,new,str): 返回替换后的字符串,和替换的次数

  • re.split(regex,str): 返回一个列表,根据正则匹配内容分割。

import re

ret = re.findall('a', 'eva egon yuan')  # 返回所有满足匹配条件的结果,放在列表里
print(ret) #结果 : ['a', 'a']

ret = re.search('a', 'eva egon yuan').group()
print(ret) #结果 : 'a'
# 函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以
# 通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。

ret = re.match('a', 'abc').group()  # 同search,不过尽在字符串开始处进行匹配
print(ret)
#结果 : 'a'

ret = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret)  # ['', '', 'cd']

ret = re.sub('\d', 'H', 'eva3egon4yuan4', 1)#将数字替换成'H',参数1表示只替换1个
print(ret) #evaHegon4yuan4

ret = re.subn('\d', 'H', 'eva3egon4yuan4')#将数字替换成'H',返回元组(替换的结果,替换了多少次)
print(ret)

'''
节省时间角度上
# re.compile() 预编译
# 参数:pattern,flags
使用原因:re.findall('\d+','asdfasd2131')
每次findall计算机都需要去解析'\d+',如果有n个待匹配的字符串,那就需要计算机解析n次'\d+',这个时候我们需要将'\d+'这个正则规则进行预编译,在以后每次查找时,直接拿已经编译后的代码,可以节省大量程序执行的‘时间’。
'''
obj = re.compile('\d{3}')  #将正则表达式编译成为一个 正则表达式对象,规则要匹配的是3个数字
ret = obj.search('abc123eeee') #正则表达式对象调用search,参数为待匹配的字符串
print(ret.group())  #结果 : 123

'''
节省空间上
# re.finditer()
    返回一个存储了'结果对象'的迭代器,取值的时候需要遍历后在对每个结果对象使用.group()方法
    当使用findall找到的结果数量巨大的时候,返回的结果会很占用内存,这个时候我们就需要使用finditer
'''
import re
ret = re.finditer('\d', 'ds3sy4784a')   #finditer返回一个存放匹配结果的迭代器
print(ret)  # <callable_iterator object at 0x10195f940>
print(next(ret).group())  #查看第一个结果
print(next(ret).group())  #查看第二个结果
print([i.group() for i in ret])  #查看剩余的左右结果
re模块详细使用

re方法小结

'''
re方法总结:
匹配:
    findall
    search match 返回结果对象,用.group()取值
字符串的其他处理:不常用
    替换
    分割

进阶:
    时间上:使用compile预编译,能够提前编译一个正则表达式,当同一个正则需要多次使用的时候,可以节省时间。
    空间上:使用finditer返回一个迭代器,里面是一个一个结果结果对象,通过对结果对象.group取到每个值
'''

2.re模块的使用

分组在正则表达式中的使用

1.分组在findall当中默认会优先显示出来
2.在分组中开始加上 ?: 可以取消分组优先的设定
在爬虫\数据清洗的过程中最常用的正则表达式操作

s = '''
<h1>hahaha</h1>
<h2>wahaha</h2>
<title>qqxing</title>
'''

'>(\w+)<'
ret = re.findall('>(\w+)<',s)
print(ret)  # findall永远优先显示分组中的内容
# ['hahaha', 'wahaha', 'qqxing']


# 分组优先显示会遇到如下问题:找到所有数字,会把括号内优先返回,导致提取信息不符要求
ret = re.findall('\d+(\.\d+)?','1.23+2.34')
print(ret)  # ['.23', '.34']
'''
取消分组优先
    在不想分组的括号开头加上 ?: 可以取消分组优先显示的问题
'''
ret = re.findall('\d+(?:\.\d+)?','1.23+2.34')
print(ret)  # ['1.23', '2.34']

split和分组:

如果被用来分割的内容在分组中,则保留这个内容。

ret=re.split("\d+","eva3egon4yuan")
print(ret) #结果 : ['eva', 'egon', 'yuan']

ret=re.split("(\d+)","eva3egon4yuan")
print(ret) #结果 : ['eva', '3', 'egon', '4', 'yuan']

#在匹配部分加上()之后所切出的结果是不同的,
#没有()的没有保留所匹配的项,但是有()的却能够保留了匹配的项,
#这个在某些需要保留匹配部分的使用过程是非常重要的。

search和分组:

search返回的结果不收分组的影响,但是可以通过序号索引分组内容,0代表所有组,1代表第一组,一次顺延

ret = re.search(r'<(\w+)>(\w+)</(\w+)>',r'<title>qqxing</title>')
print(ret.group())  # 不写默认是0,取全部
print(ret.group(1))
print(ret.group(2))

分组小结:

findall: 优先显示分组中的内容
split: 保留在分组中的分割符内容
search: 可以通过.group()索引分组内容的值
取消分组优先:(?:正则)

分组命名

在分组括号前输入:?P<名称> 就可为分组命名。

ret = re.search('<(?P<tag>\w+)>.*</(?P<content>\w+)>','<title>hahaha</title>')
print(ret.group(0))  # 不受分组影响
print(ret.group('tag'))  # 不受分组的影响
print(ret.group('content'))  # 不受分组影响

特殊的要求:网页中我们需要匹配成对的标签

s = '<h1>wahaha</h2></h2></h3>'

ret = re.search('<(?P<tag>\w+)>.*</(?P=tag)>','<h1>wahaha</h2></h1></h3>')
print(ret.group())

ret = re.search(r'<(?P<tag>\w+)>.*</\1>','<h1>wahaha</h2></h1></h3>')
print(ret.group())

使用匹配的tips:

当我们需要匹配的内容混在不相匹配内容中
只能把不想要匹配的东西也匹配出来,然后去掉不想要的,就可以拿到想要的内容。

3.练习扩展

1.匹配标签

import re


ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")
#还可以在分组中利用?<name>的形式给分组起名字
#获取的匹配结果可以直接用group('名字')拿到对应的值
print(ret.group('tag_name'))  #结果 :h1
print(ret.group())  #结果 :<h1>hello</h1>

ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")
#如果不给组起名字,也可以用\序号来找到对应的组,表示要找的内容和前面的组内容一致
#获取的匹配结果可以直接用group(序号)拿到对应的值
print(ret.group(1))
print(ret.group())  #结果 :<h1>hello</h1>
匹配标签

2.匹配整数

import re

ret=re.findall(r"\d+","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '2', '60', '40', '35', '5', '4', '3']
ret=re.findall(r"-?\d+\.\d*|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '-2', '60', '', '5', '-4', '3']
ret.remove("")
print(ret) #['1', '-2', '60', '5', '-4', '3']
匹配整数

3.匹配数字

1、 匹配一段文本中的每行的邮箱  http://blog.csdn.net/make164492212/article/details/51656638
2、 匹配一段文本中的每行的时间字符串,比如:‘1990-07-12’;
   分别取出1年的12个月(^(0?[1-9]|1[0-2])$)、
   一个月的31天:^((0?[1-9])|((1|2)[0-9])|30|31)$
3、 匹配qq号。(腾讯QQ号从10000开始)  [1,9][0,9]{4,}
4、 匹配一个浮点数。       ^(-?\d+)(\.\d+)?$   或者  -?\d+\.?\d*
5、 匹配汉字。             ^[\u4e00-\u9fa5]{0,}$ 
6、 匹配出所有整数
数字匹配

3.爬虫练习

import requests

import re
import json

def getPage(url):

    response=requests.get(url)
    return response.text

def parsePage(s):
    
    com=re.compile('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
                   '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>',re.S)

    ret=com.finditer(s)
    for i in ret:
        yield {
            "id":i.group("id"),
            "title":i.group("title"),
            "rating_num":i.group("rating_num"),
            "comment_num":i.group("comment_num"),
        }

def main(num):

    url='https://movie.douban.com/top250?start=%s&filter='%num
    response_html=getPage(url)
    ret=parsePage(response_html)
    print(ret)
    f=open("move_info7","a",encoding="utf8")

    for obj in ret:
        print(obj)
        data=json.dumps(obj,ensure_ascii=False)
        f.write(data+"\n")

if __name__ == '__main__':
    count=0
    for i in range(10):
        main(count)
        count+=25
View Code
import re
import json
from urllib.request import urlopen

def getPage(url):
    response = urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    com = re.compile(
        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
        '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S)

    ret = com.finditer(s)
    for i in ret:
        yield {
            "id": i.group("id"),
            "title": i.group("title"),
            "rating_num": i.group("rating_num"),
            "comment_num": i.group("comment_num"),
        }


def main(num):
    url = 'https://movie.douban.com/top250?start=%s&filter=' % num
    response_html = getPage(url)
    ret = parsePage(response_html)
    print(ret)
    f = open("move_info7", "a", encoding="utf8")

    for obj in ret:
        print(obj)
        data = str(obj)
        f.write(data + "\n")

count = 0
for i in range(10):
    main(count)
    count += 25

简化版
简化版
flags有很多可选值:
re.I(IGNORECASE)忽略大小写,括号内是完整的写法
re.M(MULTILINE)多行模式,改变^和$的行为
re.S(DOTALL)点可以匹配任意字符,包括换行符
re.L(LOCALE)做本地化识别的匹配,表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境,不推荐使用
re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag
re.X(VERBOSE)冗长模式,该模式下pattern字符串可以是多行的,忽略空白字符,并可以添加注释
flags用法

作业

实现能计算类似 
1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )等类似公式的计算器程序

 

posted @ 2019-03-29 19:46  ryxiong728  阅读(324)  评论(0编辑  收藏  举报