正则表达式匹配【全角字符】

网上搜了老半天，关于正则表达式啊，大家写的都是乱七八糟。尤其是关于中文的正则，写的时候估计就是临时一用，面对小样本数据没出错，就记录在了博客里。

在面对中文写正则表达式，这里边很重要的一个概念是【字符集】，

英文字母：

字节数 : 1;编码：GB2312

字节数 : 1;编码：GBK

字节数 : 1;编码：GB18030

字节数 : 1;编码：UTF-8

中文汉字：

字节数 : 2;编码：GB2312

字节数 : 2;编码：GBK

字节数 : 2~4;编码：GB18030 

字节数 : 3;编码：UTF-8

GB2312编码：1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码，收录7445个图形字符，其中包括6763个汉字。

BIG5编码：台湾地区繁体中文标准字符集，采用双字节编码，共收录13053个中文字，1984年实施。

GBK编码：1995年12月发布的汉字编码国家标准，是对GB2312编码的扩充，对汉字采用双字节编码。GBK字符集共收录21003个汉字，包含国家标准GB13000-1中的全部中日韩汉字，和BIG5编码中的所有汉字。

GB18030编码：2000年3月17日发布的汉字编码国家标准，是对GBK编码的扩充，覆盖中文、日文、朝鲜语和中国少数民族文字，其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码。兼容GBK和GB2312字符集。

UTF-8 使用一至四个字节为每个字符编码，其中大部分汉字采用三个字节编码，少量不常用汉字采用四个字节编码。因为 UTF-8 是可变长度的编码方式，相对于 Unicode 编码可以减少存储占用的空间，所以被广泛使用。

Unicode编码：国际标准字符集，它将世界各种语言的每个字符定义一个唯一的编码，以满足跨语言、跨平台的文本信息转换。使用四个字节为每个字符编码。

GBK 具体的编码表可参见 https://www.qqxiuzi.cn/zh/hanzi-gbk-bianma.php

可以使用该网址进行查询 https://www.qqxiuzi.cn/bianma/zifuji.php

posted @ 2020-09-22 01:15 一年变大牛阅读(3937) 评论(0) 收藏举报

刷新页面返回顶部

一年变大牛