python学习——正则表达式

正则表达式

正则表达式的主要作用就是对字符串进行匹配，通过匹配，进行筛选，选择出符合规则的字符串。其实正则表达式的作用就像是一个过滤器一样。你输入好自己的条件，通过它去筛选想要获得的结果。

注意，正则表达式，只能对字符串进行匹配。而数字中，每一个单独的数字都是一个字符。

正则表达式的匹配过程

首先我们来看一下正则表达式的匹配过程：

1. 依次拿出表达式和文本中的字符比较。

2. 如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。

3. 如果表达式中有量词或边界，这个过程会稍微有一些不同。

正则表达式的元字符和语法规则

注：其实*，+和？都可以使用{m,n}来代替，{0，}跟*是一样的，{1，}跟+是一样的，{0,1}和？又是一样的。不过还是需要，使用到*，+，？；因为这些字符更短，更容易阅读。而且，匹配引擎是对*，+，？做了优化的，效率会更高一些。

常用的正则表达式

以下字符串是常用的正则表达式（以下正则表达式来自百度百科）

　　1.验证用户名和密码：”^[a-zA-Z]\w{5,15}$”

　　2.验证电话号码：（”^(\d{3,4}-)\d{7,8}$”）

　　eg：021-68686868 0511-6868686；

　　3.验证手机号码：”^1[3|4|5|7|8][0-9]\d{8}$”；

　　4.验证身份证号（15位或18位数字）：”\d{14}[[0-9],0-9xX]”；

　　5.验证Email地址：(“^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$”)；

　　6.只能输入由数字和26个英文字母组成的字符串：(“^[A-Za-z0-9]+$”) ;

　　7.整数或者小数：^[0-9]+([.]{0,1}[0-9]+){0,1}$

　　8.只能输入数字：”^[0-9]*$”。

　　9.只能输入n位的数字：”^\d{n}$”。

　　10.只能输入至少n位的数字：”^\d{n,}$”。

　　11.只能输入m~n位的数字：”^\d{m,n}$”。

　　12.只能输入零和非零开头的数字：”^(0|[1-9][0-9]*)$”。

　　13.只能输入有两位小数的正实数：”^[0-9]+(.[0-9]{2})?$”。

　　14.只能输入有1~3位小数的正实数：”^[0-9]+(\.[0-9]{1,3})?$”。

　　15.只能输入非零的正整数：”^\+?[1-9][0-9]*$”。

　　16.只能输入非零的负整数：”^\-[1-9][]0-9″*$。

　　17.只能输入长度为3的字符：”^.{3}$”。

　　18.只能输入由26个英文字母组成的字符串：”^[A-Za-z]+$”。

　　19.只能输入由26个大写英文字母组成的字符串：”^[A-Z]+$”。

　　20.只能输入由26个小写英文字母组成的字符串：”^[a-z]+$”。

　　21.验证是否含有^%&’,;=?$\”等字符：”[^%&',;=?$\x22]+”。

　　22.只能输入汉字：”^[\u4e00-\u9fa5]{0,}$”。

　　23.验证URL：”^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$”。

　　24.验证一年的12个月：”^(0?[1-9]|1[0-2])$”正确格式为：”01″～”09″和”10″～”12″。

　　25.验证一个月的31天：”^((0?[1-9])|((1|2)[0-9])|30|31)$”正确格式为；”01″～”09″、”10″～”29″和“30”~“31”。

　　26.获取日期正则表达式：\d{4}[年|\-|\.]\d{\1-\12}[月|\-|\.]\d{\1-\31}日?

　　评注：可用来匹配大多数年月日信息。

　　27.匹配双字节字符(包括汉字在内)：[^\x00-\xff]

　　评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

　　28.匹配空白行的正则表达式：\n\s*\r

　　评注：可以用来删除空白行

　　29.匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?</>|<.*? />

　　评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

　　30.匹配首尾空白字符的正则表达式：^\s*|\s*$

　　评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式

　　31.匹配网址URL的正则表达式：[a-zA-z]+://[^\s]*

　　评注：网上流传的版本功能很有限，上面这个基本可以满足需求

　　32.匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

　　评注：表单验证时很实用

　　33.匹配腾讯QQ号：[1-9][0-9]\{4,\}

　　评注：腾讯QQ号从10 000 开始

　　34.匹配中国邮政编码：[1-9]\d{5}(?!\d)

　　评注：中国邮政编码为6位数字

　　35.匹配ip地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

匹配规则中的注意事项

1. 数量词的贪婪模式与非贪婪模式

正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。例如：正则表达式"ab*"如果用于查找"abbbc"，将找到"abbb"。而如果使用非贪婪的数量词"ab*?"，将找到"a"。

2. 反斜杠的困扰

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\\"表示。同样，匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

使用正则表达式

re模块是Python为正则表达式引擎提供的一个接口。同时，允许你将正则表达式编译成模式对象，并用它们进行匹配。

posted @ 2016-08-09 22:12 Rookie_C 阅读(545) 评论(0) 收藏举报

刷新页面返回顶部

Rookie_C

python学习——正则表达式

公告