2011 年 11月 12 日随笔档案 - RussellLuo

【转】正则表达式（三）：Unicode诸问题（下）

摘要：上一篇文章我们介绍了和Unicode有关的匹配问题，这篇文章我们主要讲述一下Unicode编码本身的特性，以便更好地运用正则表达式解决与Unicode相关的问题。Unicode Code PointUnicode字符多种多样，除去ascii中的字母、数字、标点和中文字符，还包括其它多种语言和多种符号，有些符号甚至很难打出来（比如表示商标注册的?），这时候该如何表示呢？再说远一点，如果我们想用一个字符组匹配所有中文字符，能不能像『[a-z]』那样呢？所幸，每一个Unicode字符都对应自己的Unicode编码，也就是Unicode编码表中的一个代码点（Code Point），所以在正则表达式中的阅读全文

posted @ 2011-11-12 13:41 RussellLuo 阅读(681) 评论(0) 推荐(0)

【转】正则表达式（二）：Unicode诸问题（上）

摘要：关于正则表达式的文档很多，但大部分都是英文的，即便有中文的文档，也翻译或改编自英文文档。在介绍功能时，这样做没有大问题，但真要处理文本，就可能会遇到一些英文开发或应用环境中难得见到的问题。比如中文之类多字节字符的匹配，就是如此。所以，这篇文章专门谈谈正则表达式如何处理多字节字符，更准确地说，是如何处理Unicode编码的文本（为什么只提到Unicode编码，而没有提到其它编码，理由在后面详述）。首先介绍关于编码的基础知识：通常来说，英文编码较为统一，往往采用ascii编码或兼容ascii的编码（即编码表的前127位与ascii编码一致，常用的各种编码，包括 Unicode编码都是如此）。也就阅读全文

posted @ 2011-11-12 12:43 RussellLuo 阅读(725) 评论(0) 推荐(0)

【转】正则表达式（一）：纠结的转义

摘要：【编者按】正则表达式一直是开发者工具箱中趁手的利器，但很多人对此仍是一知半解。这次InfoQ中文站有幸邀请到来自盛大创新院的余晟，开辟《正则表达式》的专栏，为读者讲解正则表达式的一些技巧和概念。他还是《精通正则表达式》和《技术领导之路》的译者。用过正则表达式的人都知道，正则表达式中有一类叫做“元字符（meta-character）”的特殊符号，它们并不匹配自身对应的字符，而具有其他的含义。比如脱字符『^』表示“定位到字符串/行的开头”，加号『+』表示“之前的元素重现1次以上。如果需要匹配这些字符本身，需要用反斜线来转义，匹配『^』就应该用\^，匹配『+』就应该用\+。看起来有点麻烦，但这样阅读全文

posted @ 2011-11-12 09:39 RussellLuo 阅读(1676) 评论(0) 推荐(0)

RussellLuo

导航

公告