常用的正则表达式

则表达式（官方定义）：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。即就是匹配字符串内容的一种规则。

在线测试工具：http://tool.chinaz.com/regex

（1）字符组：在同一个位置可能出现的各种字符组成了一个字符组，在正则表达式中用[]表示；字符分为很多类，比如数字、字母、标点等等。

使用格式：[字符组]

①[0123456789]：在一个字符组里枚举合法的所有字符，字符组里的任意一个字符和“待匹配字符”相同都视为可以匹配

②[0-9]:用“-”表示范围，[0-9]和[0123456789]是一样的意思

③[a-z]：匹配所有的小写字母

④[A-Z]：匹配所有的大写字母

（2）字符：

① . :匹配除换行符以外的任意字符

② \w :匹配字母或数字或下划线（即word）

③ \s :匹配任意的空白符 (即space)

④ \d ：匹配数字（即digit）

⑤ \n ：匹配一个换行符

⑥ \t ：匹配一个制表符

⑦ \b :匹配一个单词的结尾

⑧ ^ :匹配字符串的开始

⑨ $ :匹配字符串的结尾

⑩ \W :匹配非字母或数字或下划线

⑪ \D :匹配非数字

⑫ \S:匹配非空白符

⑬ a|b :匹配字符a或b

⑭ () ：匹配括号里面的表达式，也表示一个组

⑮ [...] :匹配字符组中的字符

⑯ [^...] :匹配除了字符组中字符的所有字符

（3）量词

① * :重复0次或多次

② + ：重复一次或多次

③ ？：重复0次或一次

④ {n} :重复n次

⑤ {n,} ：重复n次或多次

⑥{n,m}:重复n到m

（4）转义字符：

在正则表达式中，有很多有特殊意义的是元字符，比如\d和\s等，如果要在正则中匹配正常的"\d"而不是"数字"就需要对"\"进行转义，变成'\\'。

在python中，无论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串中\也有特殊的含义，本身还需要转义。所以如果匹配一次"\d",字符串中要写成'\\d'，那么正则里就要写成"\\\\d",这样就太麻烦了。这个时候我们就用到了r'\d'这个概念，此时的正则是r'\\d'就可以了。

（5）贪婪匹配：在满足匹配时，匹配尽可能长的字符串，默认情况下，采用贪婪匹配

几个常用的贪婪匹配：

*? 重复任意次，但尽可能少重复
   +? 重复1次或更多次，但尽可能少重复
   ?? 重复0次或1次，但尽可能少重复
   {n,m}?    重复n到m次，但尽可能少重复
   {n,}? 重复n次以上，但尽可能少重复

.*?的用法：. 是任意字符；* 是取 0 至无限长度；? 是非贪婪模式。合在一起就是：取尽量少的任意字符，一般不会这么单独写，他大多用在：

.*?x：就是取前面任意长度的字符，直到一个x出现

参考：http://www.cnblogs.com/Eva-J/articles/7228075.html#_label2

---恢复内容结束---

posted on 2018-09-06 23:46 我是大大怪阅读(163) 评论(0) 收藏举报

刷新页面返回顶部

我是大大怪

常用的正则表达式

导航

公告