随笔分类 -  字符

GB编码(转)
摘要:GB中文编码发展过程:GB2312-->GBK-->GB18030GB2312字符集作用:国家简体中文字符集,兼容ASCII。位数:使用2个字节表示,能表示7445个符号,包括6763个汉字,几乎覆盖所有高频率汉字。范围:高字节从A1到F7,低字节从A1到FE。将高字节和低字节分别加上0XA0即可得到编码。GBK字符集作用:它是GB2312的扩展,加入对繁体字的支持,兼容GB2312。位数:使用2个字节表示,可表示21886个字符。范围:高字节从81到FE,低字节从40到FE。GB18030字符集作用:它解决了中文、日文、朝鲜语等的编码,兼容GBK。位数:它采用变字节表示(1ASC 阅读全文

posted @ 2011-09-17 18:18 奋斗者 阅读(2389) 评论(0) 推荐(0)

一个GBK编码导致的问题(转)
摘要:昨天听镇方分享店铺内的架构,提到一个有趣的问题, 由于中文都采用GBK编码,所以在搜索(使用strstr搜索子串)时会出现一些错误的匹配,高亮要在字符串中插入一些标记,这个时候会导致前端显示乱码。“夏新”的GBk编码是”0xcf 0xc4 0xd0 0xc2″,”男”的GBK编码是”0xc4 0xd0″,刚好匹配上了中间两个字节,如果”夏新”后面还有汉字的话,这些字就要悲剧了。如果使用UTF-8编码就不会有问题了,因为中文使用UTF-8编码需要三个字节(1110xxxx 10xxxxxx 10xxxxxx),而第一个字节会是’E',后续两个字节都是10开始的,最大也就是’B', 阅读全文

posted @ 2011-09-17 16:42 奋斗者 阅读(728) 评论(0) 推荐(0)

GBK,BIG5等字符集编码范围的具体说明 (转)
摘要:载自:http://www.cnblogs.com/zhenjing/archive/2011/08/07/chinese_string.html一预备知识1,字符:字符是抽象的最小文本单位。它没有固定的形状(可能是一个字形),而且没有值。“A”是一个字符,“€”(德国、法国和许多其他欧洲国家通用货币的标志)也是一个字符。“中”“国”这是两个汉字字符。字符仅仅代表一个符号,没有任何实际值的意义。2,字符集:字符集是字符的集合。例如,汉字字符是中国人最先发明的字符,在中文、日文、韩文和越南文的书写中使用。这也说明了字符和字符集之间的关系,字符组成字符集(iso8859-1,GB2312/GBK, 阅读全文

posted @ 2011-09-16 10:42 奋斗者 阅读(10571) 评论(2) 推荐(1)

gb2312编码集GBK编码的比较(转)
摘要:gb2312编码简介gb2312(又称为GB 2312-80)编码是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集·基本集》,又称为GB0,由中国国家标准总局发布,1981年5月1日实施。更多详细介绍http://zh.wikipedia.org/zh-cn/Gb2312GBK编码简介GBK全名为汉字内码扩展规范,英文名Chinese Internal Code Specification。K 即是“扩展”所对应的汉语拼音(KuoZhan11)中“扩”字的声母。GBK 来自中国国家标准代码GB 13000.1-93。更多详细介绍http://zh.wikipedi 阅读全文

posted @ 2011-09-15 14:27 奋斗者 阅读(3317) 评论(0) 推荐(1)

ASCII码----字符码值对照表(转)
摘要:ASCII码的取值范围是0~127,可以用7个bit表示。C语言中char型变量的大小规定为一字节,如果存放ASCII码则只用到低7位,高位为0。以下是ASCII码表:图A.1.ASCII码表绝大多数计算机的一个字节是8位,取值范围是0~255,而ASCII码并没有规定编号为128~255的字符,为了能表示更多字符,各厂商制定了很多种ASCII码的扩展规范。注意,虽然通常把这些规范称为扩展ASCII码(Extended ASCII),但其实它们并不属于ASCII码标准。例如以下这种扩展ASCII码由IBM制定,在字符终端下被广泛采用,其中包含了很多表格边线字符用来画界面。图A.2.IBM的扩展 阅读全文

posted @ 2011-08-27 10:37 奋斗者 阅读(11088) 评论(0) 推荐(0)

Unicode 字符编码表|汉字Unicode编码的区间为:0x4E00→0x9FA5(转)
摘要:十进制十六进制字符数编码分类(中文)编码分类(英文)起始终止起始终止(个)01270000007F128C0控制符及基本拉丁文C0 Control and Basic Latin128255008000FF128C1控制符及拉丁文补充-1C1 Control and Latin 1 Supplement2563830100017F128拉丁文扩展-ALatin Extended-A3845910180024F208拉丁文扩展-BLatin Extended-B592687025002AF96国际音标扩展IPA Extensions68876702B002FF80空白修饰字母Spacing Mo 阅读全文

posted @ 2011-08-17 09:51 奋斗者 阅读(35527) 评论(0) 推荐(2)

unicode 编码表(转)
摘要:Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF, 0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97,对于汉字的编码,事实上Unicode对汉字支持不怎么好,简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536 阅读全文

posted @ 2011-08-16 16:47 奋斗者 阅读(1480) 评论(0) 推荐(0)

UTF-8编码规则(转)
摘要:UTF-8是Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E00到0x9FA5,是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织,所以可以看出unicode是给出一个字符的范围,定义了这个字是码值是多少,至于具体的实现方式可以有多种多样来实现。UTF-8是一种变长字节编码方式。对于某一个字符的UTF-8编码,如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的位数,其余各字节均以10开头。UTF-8最多可用到6个字节。如表:1字节 0xxxxxxx2字节 110 阅读全文

posted @ 2011-08-11 10:09 奋斗者 阅读(89901) 评论(3) 推荐(24)

UTF-8文件头的问题(转)
摘要:在读写有关UTF-8格式的文件时,特别是如UTF-8格式的txt文件时,经常会遇到由于UTF-8的文件头造成的乱码问题。最近又碰到了,写下来记录一下处理方式吧,有更好的方法,欢迎各位留言交流。所有采用UTF-8格式编码的文件的文件头三个字节用16进制表示是EFBBBF,因此在读取UTF-8格式文件的时候,需要去掉这个文件头。而当你并不了解读取的文件是GBK格式还是UTF-8格式时,你就不得不通过这个文件头来判断了。具体可以按照如下方式判断:1、从文件流中读取前三个字节到一个byte[3]数组中;2、通过Integer.toHexString(byte[0] & 0xFF),将byte[ 阅读全文

posted @ 2011-07-27 14:54 奋斗者 阅读(14722) 评论(2) 推荐(0)

导航