摘要:
当重复一个正则表达式时,如用 a*,操作结果是尽可能多地匹配模式。当你试着匹配一对对称的定界符,如 HTML 标志中的尖括号。匹配单个 HTML 标志的模式不能正常工作,因为 .* 的本质是“贪婪”的>>> s = 'Title'>>> len(s)32>>> print re.match('', s).span()(0, 32)>>> print re.match('', s).group()TitleRE 在 "" 中匹配 "”,因此正则表达 阅读全文
摘要:
1.多字节问题必须要全部转成unicode再处理,否则就会有问题,比如中文gbk编码的"和珅",其中的珅的后半字节和|的一样的,所以在处理的时候会有问题,如下我们用re.split来分割:#用正则分隔某个字符串def split(str, patternlist): unicodestr = str.decode('gbk') result = [] for i in patternlist: unicodei = i.decode('gbk') outlist = re.split(unicodei, unicodestr) for j i 阅读全文