一正则，之re模块

一:正则表达式：
    正则表达式本身和python没有任何关系，就是匹配字符串内容的一种规则

    官方定义：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、
        及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑

        正则表达式应用场景
        1，爬虫
        2，数据分析

        推荐书籍:正则指引

    匹配单个字符**********
            优先掌握：
                * ^:以什么什么开头
                  * ^[a-z]
                  * ^[0-9]
                * $:以什么什么结尾
            ps:^与$连用能够精准匹配固定长度的目标字符,^只能出现在开头()，\$只能出现结尾 *******
            * |:或
              * ab|abc优先匹配前面的正则表达式ab，匹配上就不再用后面的abc，可以通过调换顺序修改优先级

            * ^:出现在[]中的^表示除了^后面的其他都匹配
              * [^a]除了a其他都匹配
              * [^a-z]除了小写字母a-z其他都匹配
    1，字符组：[字符组]
        在同一个位置可能出现的各种字符组成了一个字符组，在正则表达式中用[]表示
        字符分为很多类，比如数字、字母、标点等等。
        假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一

           元字符       匹配内容
            .           匹配出换行符以外的任意字符
            \w          匹配字母或数字或下划线
            \s          匹配任意的空白符
            \d          匹配数字
            \n          匹配一个换行符
            \t          匹配一个制表符
            \b          匹配一个单词的结尾                           ****
            ^           匹配字符串的开始                            ****
            $           匹配字符串的结尾                            ****
            \W          匹配非字母或数字或下划线
            \D          匹配非数字
            \S          匹配非空白符
            a|b         匹配字符a或字符b                             *****
            ()          匹配括号内的表达式，也表示一个组
            [...]       匹配字符组中的字符
            [^...]      匹配除了字符组中字符的所有字符

    2.量词（匹配个数的限制符号）
        优先掌握：
            * +:我想要匹配13838384388,\d一次只能匹配到一个数字，
            要想一次讲号码全部匹配上需要用到\d+，+表示重复一次或者多次，
            并且正则中默认都是贪婪匹配，越多越好
            注意：你可以通过在量词后面加上一个?就可以将贪婪匹配变成非贪婪匹配(惰性匹配)
            * *:匹配0次或多次
            * ?:匹配0次或一次
            ps:
              1.对于这个0次也能匹配出来的结果，暂时不用考虑
              2.*,+,?的工作区间可以用坐标轴的形式表示出来
            * {n}:明确指定个数
            注意:量词需要写在匹配符号的后面，并且只约束紧挨着它的那个正则表达式  *****
                即 量词和量词不能结合使用，量词必须跟在正则符号的后面，量词只能能够限制紧挨着它的那一个正则符号
            面试：
                1,问题：d一次只能匹配到一个数字，+  是重复一次或多次，为什么会都把所有数字匹配到
                \d+   答：正则中默认都是贪婪匹配，尽可能多的匹配
            {n}   在括号中输入的是匹配的次数，即限制匹配多少次 ，n为10 就是匹配10次
            {n,}    重复n次或更多次
        分组：当多个正则符号需要重复多次的时候或者当做一个整体进行其他操作,那么可以分组的形式
            分组在正则的语法中就是()
                * 一次性匹配a1b2c3
                 用\[a-z][0-9]会匹配到三个结果
                想法:重复写三次，但是太麻烦，加量词的话只能限制离得最近的正则表达式
                    这个时候就可以用分组(\[a-z][0-9])+
                    python使用正则必须借助于re模块 或者是支持正则表达式书写的方法
        转义符：
                在正则表达式中，有很多有特殊意义的是元字符，比如\n和\s等，如果要在正则中匹配正常的"\n"而不是"换行符"就需要对"\"进行转义，变成'\\'。
                在python中，无论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串中\也有特殊的含义，本身还需要转义。

                所以如果匹配一次"\n",字符串中要写成'\\\n'

                所以如果匹配一次"\\\n",字符串中要写成'\\\\\\\\n'

                简便操作,利用r可以让整个字符串都不再转义(了解:r其实就是real的意思，真实不转义)
import re
            1，findall
            2，search,
            3，match
    1，findall('正则表达式','带匹配的字符串')
        res = re.findall('[a-z]+','eva egon jason')
         print(res)                               #['eva', 'egon', 'jason']
      # 找出字符串中符合正则表达式全部内容 并且返回的是一个列表,列表中的元素就是正则匹配到的结果
    2，search('正则表达式','带匹配的字符串')
        res = re.search('a','eva egon jason')
        print(res)  # search不会给你直接返回匹配到的结果 而是给你返回一个对象     是一个对象
        print(res.group())  # 必须调用group才能看到匹配到的结果         a
        注意:
        1.search只会依据正则查一次 只要查到了结果 就不会再往后查找
        2.当查找的结果不存在的情况下 调用group直接报错
    3，match('正则表达式','带匹配的字符串') 
        res = re.match('a','eva egon jason')
        print(res)
        print(res.group())
        注意:
        1.match只会匹配字符串的开头部分
        2.当字符串的开头不符合匹配规则的情况下 返回的也是None 调用group也会报错
    4，sub('正则表达式','新的内容','待替换的字符串',n)
        ret = re.sub('\d', 'H', 'eva3egon4yuan4',1)  # 将数字替换成'H'，参数1表示只替换1个
        print(ret)  # evaHegon4yuan4
        # 先按照正则表达式查找所有符合该表达式的内容 统一替换成'新的内容'  还可以通过n来控制替换的个数
    5， ret = re.subn('\d', 'H', 'eva3egon4yuan4')  # 将数字替换成'H'，返回元组(替换的结果,替换了多少次)
        ret1 = re.subn('\d', 'H', 'eva3egon4yuan4',1)  # 将数字替换成'H'，返回元组(替换的结果,替换了多少次)
        print(ret)  # 返回的是一个元组 元组的第二个元素代表的是替换的个数
        
    6， obj = re.compile('\d{3}')  #将正则表达式编译成为一个 正则表达式对象，规则要匹配的是3个数字
        ret = obj.search('abc123eeee') #正则表达式对象调用search，参数为待匹配的字符串
        res1 = obj.findall('347982734729349827384')
        print(ret.group())  #结果 ： 123
        print(res1)  #结果 ： ['347', '982', '734', '729', '349', '827', '384']
    
    7，import re     迭代器
        ret = re.finditer('\d', 'ds3sy4784a')   #finditer返回一个存放匹配结果的迭代器
        print(ret)  # <callable_iterator object at 0x10195f940>
        print(next(ret).group())  # 等价于ret.__next__()
        print(next(ret).group())  # 等价于ret.__next__()
        print(next(ret).group())  # 等价于ret.__next__()
        print(next(ret).group())  # 等价于ret.__next__()
        print(next(ret).group())  # 等价于ret.__next__()
        print(next(ret).group())  # 等价于ret.__next__()   查出迭代取值的范围 直接报错
        print(next(ret).group())  #查看第一个结果
        print(next(ret).group())  #查看第二个结果
        print([i.group() for i in ret])  #查看剩余的左右结果
    8，import re     
        res = re.search('^[1-9](\d{14})(\d{2}[0-9x])?$','110105199812067023')
        还可以给某一个正则表达式起别名
        res = re.search('^[1-9](?P<password>\d{14})(?P<username>\d{2}[0-9x])?$','110105199812067023')
        print(res.group())
        print(res.group('password'))
        print(res.group(1))
    9， (?:)忽略分组优先的机制
        ret1 = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')
        ret2 = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')  # 忽略分组优先的机制
        print(ret1,ret2)  # ['oldboy']     这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可
    10, 按数字拆分  
        ret=re.split("\d+","eva3egon4yuan")
        print(ret) #结果 ： ['eva', 'egon', 'yuan']
        数字分组拆分
        ret1=re.split("(\d+)","eva3egon4yuan")
        print(ret1) #结果 ： ['eva', '3', 'egon', '4', 'yuan']
posted @ 2019-07-17 21:04 在于折腾阅读(220) 评论(0) 收藏举报
刷新页面返回顶部
在于折腾

一正则，之re模块

公告