python 正则表达式

简介

在一些实际项目中,我们可能会遇到需要匹配对应的数据,例如爬虫时候需要匹配等,这时候就需要使用到正则表达式了

正则匹配常用规则

  • 固定字符
  • {abc} a/b/c
  • [^abc] 取所有不是a、b、c中的内容
  • [a-z]: 获取字母元素
  • .[0-9]: 获取纯数字
  • . 除换行符的所有字符

贪婪匹配:尽可能匹配长度较长的
非贪婪匹配:一般在* + 后面添加?

  • +:匹配一次或多次

  • \w: 字母数字下划线汉字

  • \d: 数字

  • *: 重复0次或多次

  • +:重复1次或者多次

  • ? 重复0次或者1次

  • {n}:重复n次

  • {n, }: 重复n次或者大于n次

  • {n, m}: 重复n-m次

分组(括号)

提取括号中的部分值

单个括号

提取括号中的部分值

多个括号

列表中嵌套元组形式返回

括号中嵌套括号

将会把括号中的值一一匹配到列表中的对应元组中去

  • ^ :起始
  • $:末尾

对于特殊符号(*,. {}, (), +)可以进行转义
re.ASCII: 只会匹配字母数字下划线,没有中文

正则:命名分组(正则)L:(?P<名称>正则)

findall
finditer

正则取反:^((?!你的规则).)*

跨行匹配

在匹配时添加标识符re.S或者re.DOTALL使其匹配换行符,例如:

re.match(pattern, content, re.S)

注意事项

  • 当需要匹配字符或时,需要注意的时需要添加括号将其括起来,有两种方式,一个是(),还有一种是[],()代表匹配整个单词,[]代表匹配单个字符,例如
    ^[test|sad](.*?)\n
    
    上述匹配的是以t字符或者s字符开头的字符串
    ^(test|sad)(.*?)\n
    
    上述匹配的是以test单词或者sad单词开头的字符串
posted @ 2022-10-26 09:37  形同陌路love  阅读(35)  评论(0编辑  收藏  举报