正则表达式笔记

摘要:本文对正则表达式简要介绍,并且提供大量实例。看完此文,你会对正则表达式有一个基本的理解。

1. "."

表示任意字符(匹配除“\n”之外的任何单个字符。要匹配包括“\n”在内的任何字符,请使用像“(.|\n)”的模式。)

2. 次数

 

* 匹配前面的子表达式零次或多次。
+ 匹配前面的子表达式一次或多次。
? 匹配前面的子表达式零次或一次。
{n} n是一个非负整数。匹配确定的n次。
{n,} n是一个非负整数。至少匹配n次。
{n,m} mn均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。

 

例如:

zo*能匹配“z”以及“zoo”。*等价于{0,}。

zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等价于{1,}。

do(es)?”可以匹配“do”或“does”中的“do”。?等价于{0,1}。

o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的两个o。

o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”。

o{1,3}”将匹配“fooooood”中的前三个o。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。


3. 选择

3.1 "[xxx]"——其中一个

(1)[xyz]

匹配“xyz”中的任意一个

(2)[a-z]

匹配a-z中的任意一个。 A-Z, A-F,  0-9,

3.2 "[^xxx]"——不匹配其中任意一个

(1)[^xyz]

不匹配“xyz”中的任意一个

(2)[^a-z]

匹配a-z中的任意一个。 A-Z, A-F,  0-9,

3.3 (xx|yyy) ——或

匹配xx 或 yyy


4. 边界

4.1 ^ex——行首

^ex :匹配ex出现在行首

4.2 $——行尾

tion$:匹配tion出现在行尾

4.3 \b——单词边界

指单词和空格间的位置。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。

4.4 \B——非单词边界

er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。

5. \ ——转义符

将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。

如:\n ——换行

\* —— *   ,   \+——+             \?——?       这样就使这些特殊字符没有了特殊作用

6. 特殊字符

 

\cx 匹配由x指明的控制字符。例如,\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为一个原义的“c”字符。
\d 匹配一个数字字符。等价于[0-9]。
\D 匹配一个非数字字符。等价于[^0-9]。
\f 匹配一个换页符。等价于\x0c和\cL。
\n 匹配一个换行符。等价于\x0a和\cJ。
\r 匹配一个回车符。等价于\x0d和\cM。
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S 匹配任何非空白字符。等价于[^ \f\n\r\t\v]。
\t 匹配一个制表符。等价于\x09和\cI。
\v 匹配一个垂直制表符。等价于\x0b和\cK。
\w 匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。
\W 匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
\xn 匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。.
\num 向后引用(back-reference)一个子字符串(substring),该子字符串与正则表达式的第num个用括号围起来的子表达式(subexpression)匹配。其中num是从1开始的正整数,其上限可能是99。例如:“(.)\1”匹配两个连续的相同字符。
\n 标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式,则n为向后引用。否则,如果n为八进制数字(0-7),则n为一个八进制转义值。
\nm 标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式,则nm为向后引用。如果\nm之前至少有n个获取,则n为一个后跟文字m的向后引用。如果前面的条件都不满足,若nm均为八进制数字(0-7),则\nm将匹配八进制转义值nm
\nml 如果n为八进制数字(0-3),且m和l均为八进制数字(0-7),则匹配八进制转义值nml。
\un 匹配n,其中n是一个用四个十六进制数字表示的Unicode字符。例如,\u00A9匹配版权符号(©)。

 

7. 实例

参见:

http://blog.csdn.net/matrix_laboratory/article/details/10356013

整数:^-?\d+$
    
    非负浮点数:^\d+(\.\d+)?$
    
    正浮点数:^((0-9)+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
    
    非正浮点数:^((-\d+\.\d+)?)|(0+(\.0+)?))$
    
    负浮点数:^(-((正浮点数正则式)))$
    
    英文字符串:^[A-Za-z]+$
    
    英文大写串:^[A-Z]+$
    
    英文小写串:^[a-z]+$
    
    英文字符数字串:^[A-Za-z0-9]+$
    
    英数字加下划线串:^\w+$
    
    E-mail地址:^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$
    
    URL:^[a-zA-Z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\s*)?$
    或:^http:\/\/[A-Za-z0-9]+\.[A-Za-z0-9]+[\/=\?%\-&_~`@[\]\':+!]*([^<>\"\"])*$
    
    邮政编码:^[1-9]\d{5}$
    
    中文:^[\u0391-\uFFE5]+$
    
    电话号码:^((\(\d{2,3}\))|(\d{3}\-))?(\(0\d{2,3}\)|0\d{2,3}-)?[1-9]\d{6,7}(\-\d{1,4})?$
    
    手机号码:^((\(\d{2,3}\))|(\d{3}\-))?13\d{9}$
    
    双字节字符(包括汉字在内):^\x00-\xff
    
    匹配首尾空格:(^\s*)|(\s*$)(像vbscript那样的trim函数)
    
    匹配HTML标记:<(.*)>.*<\/\1>|<(.*) \/>

 

posted on 2013-08-26 19:51  you Richer  阅读(160)  评论(0)    收藏  举报