正则表达式第一篇：元字符

规则表达式（Regular Expression），常用的名称是正则表达式，用于检索、替换符合特定规则的文本或字符串。正则表达式定义的规则，也被称作模式（Pattern）。正则表达式常用于从文本中查找到符合模式的文本，说某个字符串匹配某个正则表达式，是指这个文本里有一部分，或几个部分分别满足表达式表示的规则（或模式）。

一，什么是正则表达式？

正则表达式也是由字符构成的字符串，确切来说，是由普通字符或特殊字符构成的字符串，这些特殊字符是有特殊含义和作用的，称作元字符。普通字符通常是指要查找的文本，有些元字符是由转义字符\+普通字符构成的。注意，空格和换行都是普通字符。

举个例子，假设你在一篇英文小说里查找 hi，你可以使用正则表达式 hi。这几乎是最简单的正则表达式了，它可以精确匹配这样的字符串：由两个连续的字符组成，前一个字符是 h, 后一个是 i，中间没有任何字符，也不能有换行。

通常，处理正则表达式的工具会提供一个忽略大小写的选项，如果选中了这个选项，它可以匹配 hi,HI,Hi,hI 这四种情况中的任意一种。不幸的是，很多单词里包含 hi 这两个连续的字符，比如 him,history,high 等等。用 hi 作为正则表达式来查找的话，这些单词里边的 hi 也会被找出来。如果要精确地查找 hi 这个单词的话，应该使用 \bhi\b。

\b 是正则表达式中的一个特殊字符，即元字符，代表着字符的开头或结尾，也就是单词的分界处。虽然通常英文的单词是由空格，标点符号或者换行来分隔的，但是 \b 并不匹配这些单词分隔字符中的任何一个，它只匹配一个位置。

更精确的说法，\b 匹配这样的位置：它的前一个字符和后一个字符不全是 (一个是，一个不是或不存在)\w。

对\bhi\b的理解是：

前一个\b：由于\b的后面是h，那么h的前一个字符只能是空格、标点符号、换行、或没有字符。
后一个\b：由于\b的前面是i，那么i的后一个字符只能是空格、标点符号、换行、或没有字符。

假如你要找的是 hi 后面不远处跟着一个 Lucy，你应该用 \bhi\b.*\bLucy\b。

这里，. 是另一个元字符，匹配除了换行符以外的任意字符。* 同样是元字符，不过它代表的不是字符，也不是位置，而是数量 —— 它指定 * 前边的内容可以连续重复使用任意次以使整个表达式得到匹配。因此，.* 连在一起就意味着任意数量的不包含换行的字符。现在 \bhi\b.*\bLucy\b 的意思就很明显了：先是一个单词 hi, 然后是任意数量的任意字符 (但不能是换行)，最后是 Lucy 这个单词。

加入你要找的是包含hi开始的单词，那么可以使用\bhi\w*\b，解释：

首先是：单词开始位置 \b和字母hi，表示以hi开始的单词，
其次是：任意数量的字母或数字 (\w*)，
最后是：单词结束处 (\b)。

二，正则表达式的元字符

正则表达式定义的模式，是由"\"+普通字符构成的，把“\”字符称作转义字符，是因为它把普通的字符转义为有特殊含义的元字符。注意，正则表达式是区分大小写的，可以通过表达式选择来忽略大小写限制。

1，常用元字符

用以匹配特定的字符（字母，数字，符号），注意字母是区分大小写的：

. 匹配任意字符（不包括换行符）
^ 匹配开始位置，多行模式下匹配每一行的开始
$ 匹配结束位置，多行模式下匹配每一行的结束
\A 匹配字符串的开始位置
\Z 匹配字符串的结束位置
\b 匹配位于每个单词的开始或结束位置
\B 　匹配不是单词开头和结束的位置，即每个单词的中间位置
\d 匹配一个数字，相当于 [0-9]
\D 匹配非数字,相当于 [^0-9]
\s 匹配任意空白字符，相当于 [ \t\n\r\f\v]
\S 匹配非空白字符，相当于 [^ \t\n\r\f\v]
\w 匹配数字、字母、下划线中任意一个字符，相当于 [a-zA-Z0-9_]
\W 匹配非数字、字母、下划线中的任意字符，相当于 [^a-zA-Z0-9_]
\ 转义字符，把元字符转义为普通字符

2，重复字符或分组

指定前面一个字符或分组重复的次数，重复次数的渴望上有两种匹配模式：贪婪和懒惰。

贪婪匹配模式，在能使整个匹配成功的前提下使用最多的重复：

* ：重复零次或更多次，尽可能多的重复
+ ：重复一次或更多次，尽可能多的重复
? ：重复零次或一次，尽可能多的重复
{n} ：重复n次，尽可能多的重复
{n,} ：重复n次或更多次，尽可能多的重复
{n,m} ：重复n到m次，尽可能多的重复

懒惰匹配模式，在能使整个匹配成功的前提下使用最少的重复：

*?：重复零次或更多次，尽可能少的重复
+?：重复一次或更多次，尽可能少的重复
?? ：重复零次或一次，尽可能少的重复
{n}? ：重复n次，尽可能少的重复
{n,}? ：重复n次或更多次，尽可能少的重复
{n,m}? ：重复n到m次，尽可能少的重复

3，分组，转义，分支

这些字符有特定的含义和用途：

() ：用小括号表示一个分组
\ ：转义字符，将特殊字符转移为普通字符，例如："\(" 表示小括号“（”，小括号不再作为特殊字符
| ：分支，子表达式之间是“或”的关系
[...] ：指定限定字符列表，一个字符必须匹配列表中任意一个字符，在中括号中指定匹配的字符列表，例如：[aeiou] 一个字符必须aeiou中的任意一个；
[-]：连字符，在字符组中，连字符出现在字符中间，表示连续的字符序列，例如，[0-9]表示从0到9的数字；
[^... ] ：指定排除字符列表，一个字符不能是排除列表中的任意一个字符，中括号中指定排除的字符列表，例如：[^aeiou] 一个字符不能是aeiou中的任意一个；

4，正则表达式中需要转义的字符

* . ? + $ ^ [ ] ( ) { } | \ ，在这些字符前面加上转义字符\，才表示字面意义上的字符。

三，字符类，匹配字符

匹配字符是指在元字符所在的位置处，匹配一个字符：

. 匹配任意字符，不包括换行符
\d 匹配一个数字，相当于 [0-9]
\D 匹配非数字,相当于 [^0-9]
\s 匹配任意空白字符，相当于 [ \t\n\r\f\v]
\S 匹配非空白字符，相当于 [^ \t\n\r\f\v]
\w 匹配数字、字母、下划线中任意一个字符，相当于 [a-zA-Z0-9_]
\W 匹配非数字、字母、下划线中的任意字符，相当于 [^a-zA-Z0-9_]
\char 转义字符，跟在其后的字符将失去作为特殊元字符的含义，例如\.只能匹配.，不能再匹配任意字符
普通字符普通字符直接匹配，注意大小写

注意：正则表达式是区分大小写的，元字符的大写和小写形式表示的含义是不同的；文本字符的大小写也是不同的。

元字符实际上是由字符“\”和普通字符构成的，“\”称作转义字符，也就是说，“\”的作用是把普通字符转换为特殊的字符。由于元字符也是文本中的普通字符，当需要匹配这些特殊字符时，例如，文本中包含"\","."等特殊字符时，必须使用转义字符，把特殊字符转义为普通字符。对于转义字符本身，\\表示一个“\”。

使用\s匹配所有空白字符，包括：空格符，制表符，换行符和回车符。

1，匹配任意空白字符

2，匹配任意非空白字符

3，匹配数字、字母、下划线中任意一个字符

4，匹配非数字、字母、下划线中任意一个字符

5，匹配一个单词

单词的开始和结束，使用\b，单词是由多个字符构成的，至少由一个，因此是\w+，把元字符组合成一个匹配单词的正则表达式是：\b\w+\b

四，定位符，匹配位置

元字符中匹配位置的元字符主要是：

^ 匹配开始位置，多行模式下匹配每一行的开始
$ 匹配结束位置，多行模式下匹配每一行的结束
\b 匹配位于每个单词的开始或结束的位置
\B 匹配每个每个单词的不是开始或结束的位置，即单词中间的位置
\A 匹配字符串的开始位置
\Z 匹配字符串的结束位置

匹配位置的元字符不占用字符，只是匹配一个位置，例如，\b 表示匹配一个位置，并不占用任何字符，这个位置的一侧是单词字符，一侧为非单词字符。

1，匹配每行的开始位置

2，匹配结束位置

3，匹配每个单词的开始和结束位置

4，匹配每个单词的中间位置

5，匹配字符串开始的位置

在多行模式下，只匹配字符串的起始位置

6，匹配字符串的结束位置

在多行模式下，只匹配字符串的结束位置

五，字符组

字符组是若干字符的组合，表示只匹配其中一个字符：

[...] 字符组，一个字符的集合，可匹配其中任意一个字符
[ - ] 连字符，表示一个范围
[^...] 排除字符

1，字符组

如果要匹配字符grey和gray，可以使用字符组： gr[ae]y，该正则表达式的意思是：先找到字符gr，然后跟着一个a或e，最后是一个字符y。

注意：在字符组以外，普通字符（如gr[ae]y中的g和r）都有接下来是（and then）的意思，这与字符组内部的情况是完全相反的。字符组的内容是在同一个位置能够匹配的若干字符，所以他的意思是“或”。如“[0123456789]”就是匹配1到9之间的任意一个数字。如果“<H[1234]>”就是用来匹配<H1>，<H2>，<H3>，<H4>。

2，连字符

在字符组内部“-”（连字符）出现在两个字符中间，表示一个范围，例如：

“<H[1234]>”与“<H[1-4]>”是完全一样的；
[0-9]和[a-z]是常用的匹配数字和小写字母的简便方式
多重范围也是允许的,如“[0123456789abcdeABCDE]“可以写作”[0-9a-eA-E]“

注意：只有在字符组内部，连字符才是元字符，否则他就是只能匹配普通的连字符号。连字符还有一个例外，即使在字符组内部，如果连字符出现在字符组的开头（或排除型字符组的开头，下面会讲，如[^-]），那也不是元字符而只是一个普通字符。同样的道理，问号和点号（后面会讲到这两个元字符）通常被当做元字符处理，但在字符组里则不是如此。只有连字符和^(下面马上讲到，是排除字符)才可能是字符组里的元字符(但是转义符，字符组简记法仍然有效，即[\da-zA-Z]或[^\da-zA-Z]或[\\"]中的\仍然有转义的含义，\d仍然代表数字，\\"仍然代表字符串中的“\"”单独的\不会匹配任何字符，\\会匹配字符'\')。相当于字符组内部有一个自己独立的小世界，有自己的规则。

3，字符组内的排除字符

用“[^…]”取代“[…]”,这个字符组就会匹配任何未列出的字符。例如”[^1-8]”匹配除了1到8以外的任何字符。注意：这句话有两层含义，一个是排除1-8字符，另一个是一定要匹配一个字符。
例子：匹配q后面不是u的字符，正则是”q[^u]”。那么qi会被匹配。那Qantas呢？Iraq呢？答案是这两个都不会被匹配，一个是因为Q是大写，一个是因为q在最后，后面没有除了u以外的任何字符。再次注意，排除型字符组也是要匹配一个字符的。

六，量词

量词用于设置匹配前面一个字符的次数：

* 匹配前一个元字符0到多次
+ 匹配前一个元字符1到多次
? 匹配前一个元字符0到1次
{m,n} 匹配前一个元字符m到n次

问号，加号和星号统称为量词，表示前面一个字符的重复次数。

1，可选字符 ?

这些元字符，只用于匹配相邻的前一个字符；如果要匹配多个字符，需要使用()，那么用于表示()内的字符重复，例如：

对于正则 colou?r，表示color或colour， “u?”表示：u要么出现一次，要么不出现，元字符？只作用于前面紧邻的元素；
对于正则 4(th)?，用于表示4或4th，(th)?表示：th要么出现一次，要么不出现，当元字符？前面紧邻的元素是()时，把()作为一个元素来对待。

把()作为一个整体来看待，是一个元素，括号内的元素可以很多。

2，“+(加号)”和”*(星号)”

+和*的作用与？类似，元字符”+”表示“前面紧邻的元素出现一次或多次”；而元字符”*”表示“前面紧邻的元素不出现或出现任意多次”，换种说法就是”*”表示匹配尽可能多的次数，但如果一次都不匹配也没关系。”+”表示匹配尽可能多的次数，但如果一次都不匹配就报告失败。

3，区间量词

区间量词“{min, max}” 表示重复次数的范围，其中min为下限，如果min为空，表示没有下限；max为上线，如果max为空，表示没有上限。例如，对于正则 ”a{3,12}”表示能够容许a出现3到12次，用区间量词来表示其他量词：问号对应“{0,1}”，加号对应”{1,}”，星号对应”{0,}”

七，选择分支

元字符“|”，表示“或（or）”关系，表示从多个候选的子表达式中，只需要匹配一个。子表达式的范围是由()来限制的，如果没有()，那么以元字符“|”，把表达式分割为两个子表达式，例如：

“Bob”和“Robert”是两个表达式，通过元字符"|"把这两个表达式组合成一个表达式：“Bob|Robert”，表示只需要匹配其中任意一个子表达式即可。
对于上面的“gr[ea]y”例子，还可以写作“grey|gray”或者“gr(a|e)y”，后者用括号来划定多选结构的范围
请注意，“gr[a|e]y”不符合我们的需求，在这里，“|”只是一个和“a”与“e”一样的普通字符，在字符组内部|不是元字符。

“gr[ea]y”与“gr(a|e)y”的例子可能会让人觉得多选结构与字符组没太大的区别，但是不要混淆这两个概念。一个字符组只能匹配目标文本中的单个字符，而每个多选结构自身可能是完整的正则表达式，都可以匹配任意长度的文本。

比较”^From|Subject|Date:*”和”^(From|Subject|Date):*”会发现匹配结果大不相同，第一个表达式由3个多选分支构成，能匹配”^From”或”Subject”或”Date:*”,实用性不大。我们希望在每一个多选分支前都有脱字符，之后都有”:*”，所以应该使用括号来限制这些多选分支： ”^(From|Subject|Date):*”，含义是匹配以“From:*”或“Subject:*”或“Date:*”开头的文本行。

八，分组

()是分组元字符，最常见的用途是：

限制多选项的范围，如“gr(a|e)y”;
将若干字符组合为一个单元，受问号或星号之类量词的作用，如：”(cat|dog)+”

还有一个作用是环视，下文分享。

参考文档：

Online Regular tester

<基础-1> 正则表达式：元字符

正则表达式30分钟入门教程

正则表达式匹配不包含某些字符串的技巧

posted @ 2016-10-25 18:44 悦光阴阅读(6255) 评论(3) 收藏举报

刷新页面返回顶部

悦光阴

请不要假装很努力，因为结果不会陪你演戏。

正则表达式第一篇：元字符

一，什么是正则表达式？

二，正则表达式的元字符

三，字符类，匹配字符

四，定位符，匹配位置

五，字符组

六，量词

七，选择分支

八，分组

公告

悦光阴

请不要假装很努力，因为结果不会陪你演戏。

正则表达式 第一篇：元字符

一，什么是正则表达式？

二，正则表达式的元字符

三，字符类，匹配字符

四，定位符，匹配位置

五，字符组

六，量词

七，选择分支

八，分组

公告

正则表达式第一篇：元字符