字符 - 随笔分类 - 奋斗者

GB编码（转）

摘要：GB中文编码发展过程：GB2312-->GBK-->GB18030GB2312字符集作用：国家简体中文字符集，兼容ASCII。位数：使用2个字节表示，能表示7445个符号，包括6763个汉字，几乎覆盖所有高频率汉字。范围：高字节从A1到F7,低字节从A1到FE。将高字节和低字节分别加上0XA0即可得到编码。GBK字符集作用：它是GB2312的扩展，加入对繁体字的支持，兼容GB2312。位数：使用2个字节表示，可表示21886个字符。范围：高字节从81到FE，低字节从40到FE。GB18030字符集作用：它解决了中文、日文、朝鲜语等的编码，兼容GBK。位数：它采用变字节表示(1ASC 阅读全文

posted @ 2011-09-17 18:18 奋斗者阅读(2389) 评论(0) 推荐(0)

一个GBK编码导致的问题（转）

摘要：昨天听镇方分享店铺内的架构，提到一个有趣的问题，由于中文都采用GBK编码，所以在搜索（使用strstr搜索子串）时会出现一些错误的匹配，高亮要在字符串中插入一些标记，这个时候会导致前端显示乱码。“夏新”的GBk编码是”0xcf 0xc4 0xd0 0xc2″，”男”的GBK编码是”0xc4 0xd0″，刚好匹配上了中间两个字节，如果”夏新”后面还有汉字的话，这些字就要悲剧了。如果使用UTF-8编码就不会有问题了，因为中文使用UTF-8编码需要三个字节（1110xxxx 10xxxxxx 10xxxxxx），而第一个字节会是’E'，后续两个字节都是10开始的，最大也就是’B'，阅读全文

posted @ 2011-09-17 16:42 奋斗者阅读(728) 评论(0) 推荐(0)

GBK,BIG5等字符集编码范围的具体说明（转）

摘要：载自：http://www.cnblogs.com/zhenjing/archive/2011/08/07/chinese_string.html一预备知识1，字符：字符是抽象的最小文本单位。它没有固定的形状（可能是一个字形），而且没有值。“A”是一个字符，“€”（德国、法国和许多其他欧洲国家通用货币的标志）也是一个字符。“中”“国”这是两个汉字字符。字符仅仅代表一个符号，没有任何实际值的意义。2，字符集：字符集是字符的集合。例如，汉字字符是中国人最先发明的字符，在中文、日文、韩文和越南文的书写中使用。这也说明了字符和字符集之间的关系，字符组成字符集（iso8859-1，GB2312/GBK，阅读全文

posted @ 2011-09-16 10:42 奋斗者阅读(10571) 评论(2) 推荐(1)

gb2312编码集GBK编码的比较（转）

摘要：gb2312编码简介gb2312（又称为GB 2312-80）编码是一个简体中文字符集的中国国家标准，全称为《信息交换用汉字编码字符集·基本集》，又称为GB0，由中国国家标准总局发布，1981年5月1日实施。更多详细介绍http://zh.wikipedia.org/zh-cn/Gb2312GBK编码简介GBK全名为汉字内码扩展规范，英文名Chinese Internal Code Specification。K 即是“扩展”所对应的汉语拼音（KuoZhan11）中“扩”字的声母。GBK 来自中国国家标准代码GB 13000.1-93。更多详细介绍http://zh.wikipedi 阅读全文

posted @ 2011-09-15 14:27 奋斗者阅读(3317) 评论(0) 推荐(1)

ASCII码----字符码值对照表（转）

摘要：ASCII码的取值范围是0~127，可以用7个bit表示。C语言中char型变量的大小规定为一字节，如果存放ASCII码则只用到低7位，高位为0。以下是ASCII码表：图A.1.ASCII码表绝大多数计算机的一个字节是8位，取值范围是0~255，而ASCII码并没有规定编号为128~255的字符，为了能表示更多字符，各厂商制定了很多种ASCII码的扩展规范。注意，虽然通常把这些规范称为扩展ASCII码（Extended ASCII），但其实它们并不属于ASCII码标准。例如以下这种扩展ASCII码由IBM制定，在字符终端下被广泛采用，其中包含了很多表格边线字符用来画界面。图A.2.IBM的扩展阅读全文

posted @ 2011-08-27 10:37 奋斗者阅读(11088) 评论(0) 推荐(0)

Unicode 字符编码表|汉字Unicode编码的区间为：0x4E00→0x9FA5(转)

摘要：十进制十六进制字符数编码分类（中文）编码分类（英文）起始终止起始终止(个)01270000007F128C0控制符及基本拉丁文C0 Control and Basic Latin128255008000FF128C1控制符及拉丁文补充-1C1 Control and Latin 1 Supplement2563830100017F128拉丁文扩展-ALatin Extended-A3845910180024F208拉丁文扩展-BLatin Extended-B592687025002AF96国际音标扩展IPA Extensions68876702B002FF80空白修饰字母Spacing Mo 阅读全文

posted @ 2011-08-17 09:51 奋斗者阅读(35527) 评论(0) 推荐(2)

unicode 编码表（转）

摘要：Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF, 0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97,对于汉字的编码,事实上Unicode对汉字支持不怎么好,简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536 阅读全文

posted @ 2011-08-16 16:47 奋斗者阅读(1480) 评论(0) 推荐(0)

UTF-8编码规则（转）

摘要：UTF-8是Unicode的一种实现方式，也就是它的字节结构有特殊要求，所以我们说一个汉字的范围是0X4E00到0x9FA5，是指unicode值，至于放在utf-8的编码里去就是由三个字节来组织，所以可以看出unicode是给出一个字符的范围，定义了这个字是码值是多少，至于具体的实现方式可以有多种多样来实现。UTF-8是一种变长字节编码方式。对于某一个字符的UTF-8编码，如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的位数，其余各字节均以10开头。UTF-8最多可用到6个字节。如表：1字节 0xxxxxxx2字节 110 阅读全文

posted @ 2011-08-11 10:09 奋斗者阅读(89901) 评论(3) 推荐(24)

UTF-8文件头的问题（转）

摘要：在读写有关UTF-8格式的文件时，特别是如UTF-8格式的txt文件时，经常会遇到由于UTF-8的文件头造成的乱码问题。最近又碰到了，写下来记录一下处理方式吧，有更好的方法，欢迎各位留言交流。所有采用UTF-8格式编码的文件的文件头三个字节用16进制表示是EFBBBF，因此在读取UTF-8格式文件的时候，需要去掉这个文件头。而当你并不了解读取的文件是GBK格式还是UTF-8格式时，你就不得不通过这个文件头来判断了。具体可以按照如下方式判断：1、从文件流中读取前三个字节到一个byte[3]数组中；2、通过Integer.toHexString(byte[0] & 0xFF)，将byte[ 阅读全文

posted @ 2011-07-27 14:54 奋斗者阅读(14722) 评论(2) 推荐(0)

随笔分类 - 字符