【re模块】

# -*- coding:utf-8 -*-
# @Time : 2022/5/17 22:22
# Author：hanyr
# Filename：re模块.py
import re

# findall匹配字符串中所有符合正则的内容
lst = re.findall(r"\d+", "我的电话号码是:10086，我女朋友的电话号码是：10010")
print(lst)

# finditer 匹配字符串中所有的内容【返回的是迭代器】,从迭代器中拿到内容要group()
it = re.finditer(r"\d+", "我的电话号码是:10086，我女朋友的电话号码是：10010")
for i in it:
    print(i.group())

# search 找到一个结果就返回，返回的结果是match对象，拿数据用.group()
s = re.search(r"\d+", "我的电话号码是:10086，我女朋友的电话号码是：10010")
print(s.group())

# match 是从头开始 匹配
m = re.match(r"\d+", "10086，我女朋友的电话号码是：10010")
print(m.group())

# compile 预加载正则表达式
obj = re.compile(r"\d+")
rets = obj.finditer("10086，我女朋友的电话号码是：10010")
for i in rets:
    print(i.group())

s = """
<div class='jay'><span id='1'>郭麒麟</span></div>
<div class='jolin'><span id='2'>宋轶</span></div>
<div class='sylar'><span id='3'>大聪明</span></div>
<div class='tory'><span id='4'>范思哲</span></div>
<div class='jj'><span id='5'>胡老大</span></div>
"""

# 预加载,把组用()括起来，前面加上?P<>，<>里面是组的名字
obj = re.compile(r"<div class='(?P<Ename>.*?)'><span id='(?P<id>\d+)'>(?P<name>.*?)</span></div>", re.S)
result = obj.finditer(s)
for i in result:
    print(i.group("Ename"))
    print(i.group("id"))
    print(i.group("name"))

1、findall查找所有，返回list
list = re.findall("m","mai le fo len,mai ni mei!")
print(list) #["m","m","m"]
lst = re.findall(r+"\d"+","5点之前，不要给我5000万)
print(list) #["5","5000")

2、search会进行匹配，但是如果匹配到了第一个结果，就会返回这个结果，如果匹配不上，search返回的择时None
ret = re.search(r"\d","5点之前，不要给我5000万).group()
print(ret) #5

3、match只能从字符串的开头进行匹配
ret = re.match("a","abc").group()
print(ret) # a

4、finditer和findall差不多，只不过这时返回的是迭代器（重点）
it = re.finditer("m","mai le fo len,mai ni mei!")
for el in it:
    print(el.group()) # 依然需要分组

5、compile()可以将一个长长的正则进行预加载，方便后面的使用
obj = re.compile(r"\d{3}") # 将正则表达式编译成为一个 正则表达式对象 ，规则要匹配的是3个数字
ret = re.search("abc123eee") # 正则表达式对象调用search,参数为待匹配的字符串
print(ret.group()) # 123

6、正则中的内容如何单独提取
d单独获取到正则中的具体内容可以给分组起名字
s = """
<div class="西游记"><span id="10010">中国联通</span></div>
"""

obj = re.compile(r"<span id='(?P<id>\d+)'(?P<name>\w+)<span>",re.s)
result = obj.search(s)
print(result.group()) # <span id="10010">中国联通</span>
print(result.group("id")) # 10010 # 获取id组的内容
print(result.group("name") # 中国联通  # 获取name组的内容

posted @ 2022-05-17 22:51 hanyr 阅读(45) 评论(0) 收藏举报

刷新页面返回顶部

【re模块】

公告