摘要: 当重复一个正则表达式时,如用 a*,操作结果是尽可能多地匹配模式。当你试着匹配一对对称的定界符,如 HTML 标志中的尖括号。匹配单个 HTML 标志的模式不能正常工作,因为 .* 的本质是“贪婪”的>>> s = 'Title'>>> len(s)32>>> print re.match('', s).span()(0, 32)>>> print re.match('', s).group()TitleRE 在 "" 中匹配 "”,因此正则表达 阅读全文
posted @ 2013-11-25 17:37 桂皮猪 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 1.多字节问题必须要全部转成unicode再处理,否则就会有问题,比如中文gbk编码的"和珅",其中的珅的后半字节和|的一样的,所以在处理的时候会有问题,如下我们用re.split来分割:#用正则分隔某个字符串def split(str, patternlist): unicodestr = str.decode('gbk') result = [] for i in patternlist: unicodei = i.decode('gbk') outlist = re.split(unicodei, unicodestr) for j i 阅读全文
posted @ 2013-11-25 14:58 桂皮猪 阅读(230) 评论(0) 推荐(0) 编辑