随笔分类 -  刨根究底字符编码

刨根究底字符编码之十四——UTF-16究竟是怎么编码的
摘要:UTF-16究竟是怎么编码的 1. 首先要注意的是,代理Surrogate是专属于UTF-16编码方式的一种机制,UTF-8和UTF-32是不用代理的。 如前文所述,为了让UTF-16能继续编码基本平面后面的增补平面中的码点值,于是扩展了UTF-16编码方式。 具体的扩展方法就是为其增加了代理机制, 阅读全文

posted @ 2017-07-11 21:02 笨笨阿林 阅读(4334) 评论(6) 推荐(6) 编辑

刨根究底字符编码之十三——UTF-16编码方式
摘要:UTF-16编码方式 1. UTF-16编码方式源于UCS-2(Universal Character Set coded in 2 octets、2-byte Universal Character Set)。而UCS-2,是早期遗留下来的历史产物。 UCS-2将字符编号直接映射为字符编码(CEF 阅读全文

posted @ 2017-06-09 23:11 笨笨阿林 阅读(2057) 评论(1) 推荐(2) 编辑

刨根究底字符编码之十二——UTF-8究竟是怎么编码的
摘要:UTF-8究竟是怎么编码的 1. UTF-8编码是Unicode字符集的一种编码方式(CEF),其特点是使用变长字节数(即变长码元序列、变宽码元序列)来编码。一般是1到4个字节,当然,也可以更长。 为什么要变长呢?这可以理解为按需分配,比如一个字节足以容纳所有的ASCII字符,那何必补一堆0用更多的 阅读全文

posted @ 2017-06-06 22:07 笨笨阿林 阅读(2582) 评论(5) 推荐(3) 编辑

刨根究底字符编码之十一——UTF-8编码方式与字节序标记
摘要:UTF-8编码方式与字节序标记 一、UTF-8编码方式 1. 接下来将分别介绍Unicode字符集的三种编码方式:UTF-8、UTF-16、UTF-32。这里先介绍应用最为广泛的UTF-8。 为满足基于ASCII、面向字节的字符处理的需要,Unicode标准中定义了UTF-8编码方式。UTF-8应该 阅读全文

posted @ 2017-06-02 21:09 笨笨阿林 阅读(2849) 评论(0) 推荐(1) 编辑

刨根究底字符编码之十——Unicode字符集的编码方式以及码点、码元
摘要:Unicode字符集的编码方式以及码点、码元 一、字符编码方式CEF的选择 1. 由于Unicode字符集非常大,有些字符的编号(码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用两个或两个以上字节。 比如,汉字“严”的Unicode码(Unicode码点值、Unicode编 阅读全文

posted @ 2017-05-30 21:40 笨笨阿林 阅读(15293) 评论(1) 推荐(5) 编辑

刨根究底字符编码之九——字符编码方案的演变与字节序
摘要:字符编码方案的演变与字节序 一、字符编码方案的演变 1. 前文已经提及,编号字符集CCS(简称字符集)与字符编码方式CEF(简称编码方式)这两个概念,在早期并没有必要严格区分。 在Unicode编码方案出现之前,字符集及其具体的编码方式是绑定耦合在一起的,因此,“字符集”、“编码”或“编码方式”甚至 阅读全文

posted @ 2017-05-29 18:13 笨笨阿林 阅读(2532) 评论(4) 推荐(5) 编辑

刨根究底字符编码之八——Unicode编码方案概述
摘要:Unicode编码方案概述 1. 前面讲过,随着计算机发展到世界各地,于是各个国家和地区各自为政,搞出了很多既兼容ASCII但又互相不兼容的各种编码方案。这样一来同一个二进制编码就有可能被解释成不同的字符,导致不同的字符集在交换数据时带来极大的不便。 比如大陆和台湾是只相隔150海里、使用着同一种语 阅读全文

posted @ 2017-05-28 12:55 笨笨阿林 阅读(3645) 评论(0) 推荐(1) 编辑

刨根究底字符编码之七——ANSI编码与代码页(Code Page)
摘要:ANSI编码与代码页(Code Page) 一、ANSI编码 1. 如前所述,在全世界所有国家和民族的文字符号统一编码的Unicode编码方案问世之前,各个国家、民族为了用计算机记录并显示自己的字符,都在ASCII编码方案的基础上,设计了各自的编码方案。 比如欧洲先后设计了EASCII和ISO/IE 阅读全文

posted @ 2017-05-27 10:34 笨笨阿林 阅读(12502) 评论(1) 推荐(7) 编辑

刨根究底字符编码之六——简体汉字编码中区位码、国标码、内码、外码、字形码的区别及关系
摘要:简体汉字编码中区位码、国标码、内码、外码、字形码的区别及关系 简体汉字编码中区位码、国标码、内码、外码、字形码的区别及关系 GB2312、GBK、GB18030等GB类汉字编码方案的具体实现方式是怎样的?区位码是什么?国标码是什么?内码、外码、字形码又是什么意思?它们是如何转换的,又为什么要这样转换 阅读全文

posted @ 2017-05-26 12:29 笨笨阿林 阅读(14268) 评论(3) 推荐(3) 编辑

刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK
摘要:简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK 简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK 简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK 简体汉字编码 阅读全文

posted @ 2017-05-25 11:20 笨笨阿林 阅读(6374) 评论(3) 推荐(5) 编辑

刨根究底字符编码之四——EASCII及ISO 8859字符编码方案
摘要:EASCII及ISO 8859字符编码方案 1. 计算机出现之后,首先逐渐从美国发展到了欧洲。由于欧洲很多国家所用到的字符中,除了基本的、美国也用的那128个ASCII字符之外,还有很多衍生的拉丁字母等字符。比如,在法语中,字母上方有注音符号;而欧洲其他国家也有各自特有的字符。 考虑到一个字节能够表 阅读全文

posted @ 2017-05-24 10:19 笨笨阿林 阅读(3235) 评论(3) 推荐(2) 编辑

刨根究底字符编码之三——字符编码的由来
摘要:字符编码的由来 一、为什么需要对字符进行编码 1. 计算机一开始发明出来时是用来解决数字计算问题的,后来人们发现,计算机还可以做更多的事,例如文本处理。 但计算机其实挺笨的,它只“认识”010110111000…这样由0和1两个数字组成的二进制数字,这是因为计算机的底层硬件实现就是用电路的开和闭两种 阅读全文

posted @ 2017-05-23 10:03 笨笨阿林 阅读(2760) 评论(1) 推荐(5) 编辑

刨根究底字符编码之二——关键术语解释(下)
摘要:分别介绍了现代字符编码模型的五个层次:抽象字符表ACR、编号字符集CCS、字符编码方式CEF、字符编码模式CES、传输编码语法TES。 阅读全文

posted @ 2017-05-21 21:49 笨笨阿林 阅读(2603) 评论(3) 推荐(1) 编辑

刨根究底字符编码之一——关键术语解释(上)
摘要:由于历史的原因,早期一般认为字符集和字符编码是同义词。因此在像ASCII这样的简单字符集为代表的传统字符编码模型中,这两个概念的含义几乎是等同的。但是,在由Unicode和UCS为代表的现代字符编码模型中,这两个概念的含义完全不同。 阅读全文

posted @ 2017-05-20 15:50 笨笨阿林 阅读(5300) 评论(4) 推荐(6) 编辑

刨根究底字符编码之零——前言
摘要:字符编码是计算机世界里最基础、最重要的一个主题之一。在编程实践中,如果不发扬死磕到底的精神将字符编码问题的来龙去脉、前世今生彻底搞清楚,那么它终将会像幽灵一样挥之不去,导致时不时地被各种与字符编码相关的“灵异”事件折磨得死去活来。 阅读全文

posted @ 2017-05-20 13:35 笨笨阿林 阅读(2843) 评论(7) 推荐(13) 编辑

导航