【re模块】
# -*- coding:utf-8 -*-
# @Time : 2022/5/17 22:22
# Author:hanyr
# Filename:re模块.py
import re
# findall匹配字符串中所有符合正则的内容
lst = re.findall(r"\d+", "我的电话号码是:10086,我女朋友的电话号码是:10010")
print(lst)
# finditer 匹配字符串中所有的内容【返回的是迭代器】,从迭代器中拿到内容要group()
it = re.finditer(r"\d+", "我的电话号码是:10086,我女朋友的电话号码是:10010")
for i in it:
print(i.group())
# search 找到一个结果就返回,返回的结果是match对象,拿数据用.group()
s = re.search(r"\d+", "我的电话号码是:10086,我女朋友的电话号码是:10010")
print(s.group())
# match 是从头开始 匹配
m = re.match(r"\d+", "10086,我女朋友的电话号码是:10010")
print(m.group())
# compile 预加载正则表达式
obj = re.compile(r"\d+")
rets = obj.finditer("10086,我女朋友的电话号码是:10010")
for i in rets:
print(i.group())
s = """
<div class='jay'><span id='1'>郭麒麟</span></div>
<div class='jolin'><span id='2'>宋轶</span></div>
<div class='sylar'><span id='3'>大聪明</span></div>
<div class='tory'><span id='4'>范思哲</span></div>
<div class='jj'><span id='5'>胡老大</span></div>
"""
# 预加载,把组用()括起来,前面加上?P<>,<>里面是组的名字
obj = re.compile(r"<div class='(?P<Ename>.*?)'><span id='(?P<id>\d+)'>(?P<name>.*?)</span></div>", re.S)
result = obj.finditer(s)
for i in result:
print(i.group("Ename"))
print(i.group("id"))
print(i.group("name"))
1、findall查找所有,返回list
list = re.findall("m","mai le fo len,mai ni mei!")
print(list) #["m","m","m"]
lst = re.findall(r+"\d"+","5点之前,不要给我5000万)
print(list) #["5","5000")
2、search会进行匹配,但是如果匹配到了第一个结果,就会返回这个结果,如果匹配不上,search返回的择时None
ret = re.search(r"\d","5点之前,不要给我5000万).group()
print(ret) #5
3、match只能从字符串的开头进行匹配
ret = re.match("a","abc").group()
print(ret) # a
4、finditer和findall差不多,只不过这时返回的是迭代器(重点)
it = re.finditer("m","mai le fo len,mai ni mei!")
for el in it:
print(el.group()) # 依然需要分组
5、compile()可以将一个长长的正则进行预加载,方便后面的使用
obj = re.compile(r"\d{3}") # 将正则表达式编译成为一个 正则表达式对象 ,规则要匹配的是3个数字
ret = re.search("abc123eee") # 正则表达式对象调用search,参数为待匹配的字符串
print(ret.group()) # 123
6、正则中的内容如何单独提取
d单独获取到正则中的具体内容可以给分组起名字
s = """
<div class="西游记"><span id="10010">中国联通</span></div>
"""
obj = re.compile(r"<span id='(?P<id>\d+)'(?P<name>\w+)<span>",re.s)
result = obj.search(s)
print(result.group()) # <span id="10010">中国联通</span>
print(result.group("id")) # 10010 # 获取id组的内容
print(result.group("name") # 中国联通 # 获取name组的内容