正则表达式基本元字符

要想学会正则表达式，理解元字符是一个必须攻克的难关。不用刻意记

(1) .：匹配任何单个字符。例如正则表达式“b.g”能匹配如下字符串：“big”、“bug”、“b g”，但是不匹配“buug”，“b..g”可以匹配“buug”。

(2) [ ] ：匹配括号中的任何一个字符。例如正则表达式“b[aui]g”匹配bug、big和bag，但是不匹配beg、baug。可以在括号中使用连字符“-”来指定字符的区间来简化表示，

例如正则表达式[0-9]可以匹配任何数字字符，这样正则表达式“a[0-9]c”等价于“a[0123456789]c”就可以匹配“a0c”、“a1c”、“a2c”等字符串；还可以制定多个区间，

例如“[A-Za-z]”可以匹配任何大小写字母，“[A-Za-z0-9]”可以匹配任何的大小写字母或者数字。

(3) ( ) ：将 () 之间括起来的表达式定义为“组”(group)，并且将匹配这个表达式的字符保存到一个临时区域,这个元字符在字符串提取的时候非常有用。

把一些字符表示为一个整体.改变优先级、定义提取组两个作用。

(4) | ：将两个匹配条件进行逻辑“或”运算。'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。

(5) *：匹配0至多个在它之前的子表达式，和通配符*没关系。例如正则表达式“zo*”能匹配 “z” 、“zo”以及 “zoo”；因此“.*”意味着能够匹配任意字符串。

"z(b|c)*"→zb、zbc、zcb、zccc、zbbbccc。"z(ab)*"能匹配z、zab、zabab（用括号改变优先级）。

(6) + ：匹配前面的子表达式一次或多次，和*对比（0到多次）。例如正则表达式9+匹配9、99、999等。 “zo+”能匹配 “zo”以及 “zoo” ，不能匹配"z"。

(7) ? ：匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 。一般用来匹配“可选部分”。

(8) {n}：匹配确定的 n 次。"zo{2}"→zoo。例如，“e{2}” 不能匹配“bed”中的“e”，但是能匹配“seed”中的两个“e”。

(9) {n,}:至少匹配n次。例如，“e{2,}”不能匹配“bed”中的“e”，但能匹配 “seeeeeeeed”中的所有“e”。

(10){n,m} ：最少匹配 n 次且最多匹配 m 次。“e{1,3}”将匹配“seeeeeeeed”中的前三个“e”。

(11) ^（shift+6）：匹配一行的开始。例如正则表达式“^regex”能够匹配字符串“regex我会用”的开始，但是不能匹配“我会用regex”。

^另外一种意思：非！（暂时不用理解）

(12) $ ：匹配行结束符。例如正则表达式“浮云$” 能够匹配字符串“一切都是浮云”的末尾，但是不能匹配字符串“浮云呀”

(13)注意这些简写表达式是不考虑转义符的，这里的\就表示字符\，而不是C#字符串级别的\，在C#代码中需要使用@或者\双重转义。区分C#级别的转移和正则表达式级别的转

移，恰好C#的转义符和正则表达式的转义符都是\而已。正则表达式的转移是在C#之后的（层层盘剥）。把C#的转义符想成%就明白了。在C#看来@"\-"就是\-这个普通的

字符串，只不过在正则表达式分析引擎看来他有了特殊含义。"\\d"或者@"\d"

–\d：代表一个数字，等同于[0-9]

–\D：代表非数字，等同于[^0-9]

–\s：代表换行符、Tab制表符等空白字符

–\S：代表非空白字符

–\w：匹配字母或数字或下划线或汉字，即能组成单词的字符

–\W：非\w ，等同于[^\w]

[注]d：digital；s：space、w：word。大写就是“非”

posted on 2013-04-21 20:15 Joker_Feng 阅读(752) 评论(0) 收藏举报

刷新页面返回顶部

公告