Python学习笔记08

 

正则表达式包re

match,search,sub

re.match(pattern, string, flags=0)

re.search(pattern, string, flags=0)

re.sub(pattern, repl, string, max=0)

re.split(pattern,string,maxsplit,flags=0) # 根据正则表达式分割字符串, 将分割后的所有子字符串放在一个表(list)中返回

re.findall(pattern,string,flags=0) # 根据正则表达式搜索字符串,将所有符合的子字符串放在一给表(list)中返回

re.compile(pattern,flags=0)

 

  1. import re
  2.  
  3. line = "Cats are smarter than dogs"
  4. matchObj = re.match(r'(.*) are (.*?) .*',line,re.M | re.I)
  5.  
  6.  
  7. if matchObj:
  8.    print "matchObj.group() : ", matchObj.group(0)
  9.    print "matchObj.group(1) : ", matchObj.group(1)
  10.    print "matchObj.group(2) : ", matchObj.group(2)
  11. else:
  12.    print "No match!!"
  13.  
  14. import datetime,re,os
  15. str = 'output_1981.10.21.txt'
  16. m = re.match(r'output_(\d{4}).(\d{2}).(\d{2}).txt',str)
  17. m2 = re.findall(r'(?P<year>\d{4}).(?P<month>\d{2}).(?P<day>\d{2})',str)
  18. m3 =re.search("(?P<year>\d{4})\.(?P<month>\d{2})\.(?P<day>\d{2})\.",str)
  19. print m2
  20. print m.group(0)+",",m.group(1)+",",m.group(2)+",",m.group(3)
  21. print m3.group("year")
  22.  
  23. m2 =m2[0]
  24. print m2
  25. date = datetime.date(int(m2[0]),int(m2[1]),int(m2[2]))
  26. print date.weekday()

 

 

可选标识说明

修饰符

描述

re.I

使匹配对大小写不敏感,Ignore

re.L

做本地化识别(locale-aware)匹配

re.M

多行匹配,影响 ^ $MutilLine

re.S

使 . 匹配包括换行在内的所有字符

re.U

根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.,Unicode

re.X

该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

 

表达式解释

模式

描述

^

匹配字符串的开头

$

匹配字符串的末尾。

.

匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。

[...]

用来表示一组字符,单独列出:[amk] 匹配 'a''m''k'

[^...]

不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。

re*

匹配0个或多个的表达式。

re+

匹配1个或多个的表达式。

re?

匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式

re{ n}

 

re{ n,}

精确匹配n个前面表达式。

re{ n, m}

匹配 n m 次由前面的正则表达式定义的片段,贪婪方式

a| b

匹配ab

(re)

G匹配括号内的表达式,也表示一个组

(?imx)

正则表达式包含三种可选标志:i, m, x 。只影响括号中的区域。

(?-imx)

正则表达式关闭 i, m, x 可选标志。只影响括号中的区域。

(?: re)

类似 (...), 但是不表示一个组

(?imx: re)

在括号中使用i, m, x 可选标志

(?-imx: re)

在括号中不使用i, m, x 可选标志

(?#...)

注释.

(?= re)

前向肯定界定符。如果所含正则表达式,以 ... 表示,在当前位置成功匹配时成功,否则失败。但一旦所含表达式已经尝试,匹配引擎根本没有提高;模式的剩余部分还要尝试界定符的右边。

(?! re)

前向否定界定符。与肯定界定符相反;当所含表达式不能在字符串当前位置匹配时成功

(?> re)

匹配的独立模式,省去回溯。

\w

匹配字母数字

\W

匹配非字母数字

\s

匹配任意空白字符,等价于 [\t\n\r\f].

\S

匹配任意非空字符

\d

匹配任意数字,等价于 [0-9].

\D

匹配任意非数字

\A

匹配字符串开始

\Z

匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串。c

\z

匹配字符串结束

\G

匹配最后匹配完成的位置。

\b

匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'

\B

匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'

\n, \t, .

匹配一个换行符。匹配一个制表符。等

\1...\9

匹配第n个分组的子表达式。

\10

匹配第n个分组的子表达式,如果它经匹配。否则指的是八进制字符码的表达式。

 

posted @ 2015-08-11 11:27  _DN  阅读(215)  评论(0编辑  收藏  举报