python基础知识--8正则表达式

1.正则表达式


# 正则表达式
# 通俗而言，就是通过某种规则，来匹配符合条件的字符序列。


# 适用场景：
# 快速地查找、替换或匹配具有特殊格式的字符；
# 如：
#   文本替换；
#   匹配电子邮箱、电话号码、IP地址等； 
#   匹配爬虫程序中，某些特殊格式的字符。


import re

re.findall(pattern, string, flags=0) # 会将所有符合条件的字符，放在一个列表中


# pattern 指的是，正则表达式匹配规则
# string  指的是，要进行匹配的字符串
# flags   指的是，可选参数，进行特定条件的匹配

# 需求：
# 匹配字符串中的所有 lemon

match_str = 'lemon&apple&lemoon&banana&lemooon&pear&lemoooon'

re.findall('lemon',match_str) # lemon 普通字符
运行：

['lemon']


#%%

# 需求
# 1.除了匹配 lemon，还想把 lemoon lemooon lemoooooon 给匹配出来

re.findall('lemo{1,4}n',match_str)

运行结果：

['lemon', 'lemoon', 'lemooon', 'lemoooon']

2.字符集

# 被匹配的字符集合

import re


match_str = 'bac | bbc | bcc | bdc | bec'

# 需求：
# 1.匹配 bac 或 bbc

re.findall('b[ab]c',match_str)

运行结果：

['bac', 'bbc']



re.findall('b[^ab]c',match_str) # ^ 取反
运行结果：

['bcc', 'bdc', 'bec']

# 需求
# 1.匹配 bac 或 bbc 或 bcc 或 bdc

re.findall('b[abcd]c',match_str)  # [abcd]
运行结果：

['bac', 'bbc', 'bcc', 'bdc']

#%%

re.findall('b[a-d]c',match_str)  # [a-d]
运行结果：


['bac', 'bbc', 'bcc', 'bdc']

#%%

re.findall('b[^a-d]c',match_str)  # [^a-d] [^abcd]
运行结果：
['bec']
#%%
3.常见元字符


import re

# 数字字符
# \d 匹配一个数字字符
# \D 匹配一个非数字字符

match_str = '&a0b12c344d55&AC_'

re.findall('\d',match_str)
运行结果：

['0', '1', '2', '3', '4', '4', '5', '5']


re.findall('\D',match_str)
运行结果：

['&', 'a', 'b', 'c', 'd', '&', 'A', 'C', '_']


# 单词字符

# \w 匹配一个包括下划线的单词字符   A-Za-z0-9_
# \W 匹配一个非包括下划线的单词字符

#%%

match_str = '&a0b12c344d55&AC_'

re.findall('\w',match_str)
运行结果：

['a', '0', 'b', '1', '2', 'c', '3', '4', '4', 'd', '5', '5', 'A', 'C', '_']



re.findall('\W',match_str)
运行结果：

['&', '&']

# 空白字符

# \s 匹配一个空白字符 如空格、制表符、换页符等
# \S 匹配一个非空白字符

#%%

match_str = '\r\t&a0b12c344d55&AC_ \n'


re.findall('\s',match_str)
运行结果：

['\r', '\t', ' ', '\n']


re.findall('\S',match_str)
运行结果：

['&','a','0','b','1','2','c','3','4','4','d','5','5','&','A','C','_']

4.数量词


import re

match_str = '&a0b12c344d55&AC_6789'

# 需求：
# 1.想取出完整的数字集合 如 0、12、344、55


re.findall('\d{1,}',match_str)

运行结果：

['0', '12', '344', '55', '6789']

# {1,3} 代表匹配前面的字符，1次到3次
# {1,}  代表匹配前面的字符，1次到N次

#%%

match_str2 = 'lemon12banana34pear56'

# 需求：
# 1.想取出完整的单词集合 如 lemon、 banana、 pear

# \w A-Za-z0-9_

#%%

re.findall('[a-z]{4,6}',match_str2)
运行结果：

['lemon', 'banana', 'pear']

5.贪婪与非贪婪

import re

match_str = 'lemon12banana34pear56'

re.findall('[a-z]{4,6}?',match_str)
运行结果：

['lemo', 'bana', 'pear']


re.findall('[a-z]{4,6}',match_str)
运行结果：

['lemon', 'banana', 'pear']
#%%

# 数量词
# 贪婪    倾向于最大长度匹配
# 非贪婪  倾向于最小长度匹配

#%%

match_str = 'lemooooo'

re.findall('lemo{1,}',match_str)
运行结果：

['lemooooo']


re.findall('lemo{1,}?',match_str)
运行结果：

['lemo']

# 贪婪模式在整个表达式匹配成功的前提下，尽可能多的匹配；
# 非贪婪模式在整个表达式匹配成功的前提下，尽可能少的匹配。

6.次数匹配


re.findall('\d{1,3}',match_str)   # 代表匹配前面的数字字符，1次到3次
re.findall('\d{1,}' ,match_str)   # 代表匹配前面的数字字符，1次到N次


import re


# *  代表匹配前面的字符零次或多次  {0,}
# +  代表匹配前面的字符一次或多次  {1,}
# ?  代表匹配前面的字符零次或一次  {0,1}
 

#%%

match_str = 'lemo123 lemon345 lemonnnn567'


re.findall('lemon*',match_str)
运行结果：

['lemo', 'lemon', 'lemonnnn']



re.findall('lemon+',match_str)
运行结果：

['lemon', 'lemonnnn']


re.findall('lemon?',match_str)
运行结果：

['lemo', 'lemon', 'lemon']

# 对于 ? 总结

# 1.如果数量词后面有 ?，该 ? 代表非贪婪的关键字，倾向于取最小长度匹配
# 2.如果字符 后面有 ?，该 ? 代表匹配前面字符 0次或1次

7.定位符


import re

match_str = 'abcdef 123456 abcdef 456 abc'


# 需求1：
# 匹配所有的单词字符集合 如 abcdef abcdef abc

re.findall('[a-z]{3,6}',match_str)
运行结果：

['abcdef', 'abcdef', 'abc']

# 需求2：
# 1.匹配第一个的单词字符集合   如 abcdef 
# 2.匹配最后一个的单词字符集合 如 abc

# 定位符用来匹配字符串的边界


^   匹配字符串开始的位置

match_str = 'abcdef 123456 abcdef 456 abc'

re.findall('^[a-z]{6}',match_str)

运行结果：

['abcdef']



[^abc]


$ 匹配字符串结尾的位置


match_str = 'abcdef 123456 abcdef 456 abc'


re.findall('[a-z]{3}$',match_str)

运行结果：

['abc']

8.组的匹配


import re

match_str = 'lemonlemonlemonappleapplepearpear'


re.findall('(lemon){3}',match_str)
运行结果：

['lemon']


# 一组字符的集合

re.search('(lemon){3}',match_str).group()
运行结果：

'lemonlemonlemon'


组 与 字符集 区别


(lemon) 匹配 lemon 这一组字符
[lemon] 匹配 括号中的任意一个字母

re.findall('(lemon){3}',match_str)
运行结果：

['lemon']


re.findall('[lemon]',match_str)
运行结果：

['l','e','m','o','n','l','e','m','o','n','l','e','m','o','n','l','e','l','e','e' 'e']

9.FLAGS可选参数

import re

re.findall(pattern, string, flags=0)

# pattern 指的是，正则表达式匹配规则
# string  指的是，要进行匹配的字符串
# flags   指的是，可选参数，进行特定条件的匹配

match_str = 'lemon\n LEMON\n'

re.findall('lemon.',match_str,re.I | re.S)
运行结果：

['lemon\n', 'LEMON\n']

# 补充元字符

 .

匹配除“\n”之外的任何单个字符

match_str = '\n123 abc\r'


re.findall('.',match_str,re.S)
运行结果：

['\n', '1', '2', '3', ' ', 'a', 'b', 'c', '\r']

10.MATCH函数与SERARCH函数

'''
re.findall(pattern, string, flags=0)

re.match(pattern, string, flags=0)
re.search(pattern, string, flags=0)

'''

#%%

'''
re.findall 搜索整个字符串，返回所有匹配项

re.match   从字符串首字符开始匹配，若首字符不匹配，则返回None，若匹配则返回第一个匹配对象。
re.search  搜索整个字符串，        若全都不匹配，则返回None，若匹配则返回第一个匹配对象。
'''

import re

match_str = 'a5678 lemon 1234'

re.findall('\d',match_str)
运行结果：

['5', '6', '7', '8', '1', '2', '3', '4']


re.match('\d',match_str)

运行结果：

<_sre.SRE_Match object; span=(0, 1), match='5'>



re.search('\d',match_str)
运行结果：

<_sre.SRE_Match object; span=(1, 2), match='5'>


11.Group组匹配

# group(0) 记录的是完整匹配的结果


# 用 () 来表示其中的内容属于一个分组

import re


match_str = 'life is mostly happy,but sometimes sad'

# 需求：
# 1.将 is mostly happy,but sometimes 匹配出来
# 2.将 is mostly happy 以及 sometimes 分别匹配出来

#%%

r = re.search('life(.*)sad',match_str)
r
运行结果：

<_sre.SRE_Match object; span=(0, 38), match='life is mostly happy,but sometimes sad'>



r.group(0)

运行结果：

'life is mostly happy,but sometimes sad'

r.group(1)

运行结果：

' is mostly happy,but sometimes '



#%%

r1 = re.search('life(.*)but(.*)sad',match_str)
r1

r1.group(1)

运行结果：

' is mostly happy,'


r1.group(2)

运行结果：

' sometimes '


r1.groups()

运行结果：

(' is mostly happy,', ' sometimes ')


12.正则替换

# re.sub(pattern, repl, string, count=0, flags=0)

# pattern 正则表达式
# repl    要替换的内容，也可传入函数
# string  被替换的字符串
# count   默认为0，代表全部替换 。
#         1 代表替换1次，
#         2 代表替换2次，以此类推

#%%

import re

match_str = 'lemon apple 123456789 lemon  lemon'

# 需求
# 将lemon 全都转为 a


re.sub('lemon','a',match_str,count=2)
运行结果：

'a apple 123456789 a  lemon'

# 需求 xx
# 数字 小于 7的，都转为 0 , 数字 大于等于 7的，都转为 10

#%%

match_str = 'lemon apple 123456789 lemon  lemon'

def transform(value):
    match_num = value.group()
    print(match_num)
    if int(match_num) < 7:
        return '0'
    return '10'

re.sub('\d',transform,match_str,count=0)
运行结果：

'lemon apple 000000101010 lemon  lemon'

posted on 2020-10-23 11:58 kunlungege 阅读(175) 评论(0) 收藏举报

刷新页面返回顶部

python基础知识--8正则表达式

导航

公告