2013 年 11月 25 日随笔档案 - 桂皮猪

2013年11月25日

摘要：当重复一个正则表达式时，如用 a*，操作结果是尽可能多地匹配模式。当你试着匹配一对对称的定界符，如 HTML 标志中的尖括号。匹配单个 HTML 标志的模式不能正常工作，因为 .* 的本质是“贪婪”的>>> s = 'Title'>>> len(s)32>>> print re.match('', s).span()(0, 32)>>> print re.match('', s).group()TitleRE 在 "" 中匹配 "”，因此正则表达阅读全文

posted @ 2013-11-25 17:37 桂皮猪阅读(280) 评论(0) 推荐(0) 编辑

python中文处理

摘要： 1.多字节问题必须要全部转成unicode再处理，否则就会有问题，比如中文gbk编码的"和珅"，其中的珅的后半字节和|的一样的，所以在处理的时候会有问题，如下我们用re.split来分割：#用正则分隔某个字符串def split(str, patternlist): unicodestr = str.decode('gbk') result = [] for i in patternlist: unicodei = i.decode('gbk') outlist = re.split(unicodei, unicodestr) for j i 阅读全文

posted @ 2013-11-25 14:58 桂皮猪阅读(230) 评论(0) 推荐(0) 编辑

公告