刨根究底字符编码 - 随笔分类 - 笨笨阿林

刨根究底字符编码之十四——UTF-16究竟是怎么编码的

摘要：UTF-16究竟是怎么编码的 1. 首先要注意的是，代理Surrogate是专属于UTF-16编码方式的一种机制，UTF-8和UTF-32是不用代理的。如前文所述，为了让UTF-16能继续编码基本平面后面的增补平面中的码点值，于是扩展了UTF-16编码方式。具体的扩展方法就是为其增加了代理机制，阅读全文

posted @ 2017-07-11 21:02 笨笨阿林阅读(4668) 评论(6) 推荐(6)

刨根究底字符编码之十三——UTF-16编码方式

摘要：UTF-16编码方式 1. UTF-16编码方式源于UCS-2(Universal Character Set coded in 2 octets、2-byte Universal Character Set)。而UCS-2，是早期遗留下来的历史产物。 UCS-2将字符编号直接映射为字符编码(CEF 阅读全文

posted @ 2017-06-09 23:11 笨笨阿林阅读(2288) 评论(1) 推荐(2)

刨根究底字符编码之十二——UTF-8究竟是怎么编码的

摘要：UTF-8究竟是怎么编码的 1. UTF-8编码是Unicode字符集的一种编码方式(CEF)，其特点是使用变长字节数(即变长码元序列、变宽码元序列)来编码。一般是1到4个字节，当然，也可以更长。为什么要变长呢？这可以理解为按需分配，比如一个字节足以容纳所有的ASCII字符，那何必补一堆0用更多的阅读全文

posted @ 2017-06-06 22:07 笨笨阿林阅读(2991) 评论(5) 推荐(3)

刨根究底字符编码之十一——UTF-8编码方式与字节序标记

摘要：UTF-8编码方式与字节序标记一、UTF-8编码方式 1. 接下来将分别介绍Unicode字符集的三种编码方式：UTF-8、UTF-16、UTF-32。这里先介绍应用最为广泛的UTF-8。为满足基于ASCII、面向字节的字符处理的需要，Unicode标准中定义了UTF-8编码方式。UTF-8应该阅读全文

posted @ 2017-06-02 21:09 笨笨阿林阅读(3258) 评论(0) 推荐(1)

刨根究底字符编码之十——Unicode字符集的编码方式以及码点、码元

摘要：Unicode字符集的编码方式以及码点、码元一、字符编码方式CEF的选择 1. 由于Unicode字符集非常大，有些字符的编号(码点值)需要两个或两个以上字节来表示，而要对这样的编号进行编码，也必须使用两个或两个以上字节。比如，汉字“严”的Unicode码(Unicode码点值、Unicode编阅读全文

posted @ 2017-05-30 21:40 笨笨阿林阅读(17266) 评论(1) 推荐(5)

刨根究底字符编码之九——字符编码方案的演变与字节序

摘要：字符编码方案的演变与字节序一、字符编码方案的演变 1. 前文已经提及，编号字符集CCS(简称字符集)与字符编码方式CEF(简称编码方式)这两个概念，在早期并没有必要严格区分。在Unicode编码方案出现之前，字符集及其具体的编码方式是绑定耦合在一起的，因此，“字符集”、“编码”或“编码方式”甚至阅读全文

posted @ 2017-05-29 18:13 笨笨阿林阅读(2781) 评论(4) 推荐(5)

刨根究底字符编码之八——Unicode编码方案概述

摘要：Unicode编码方案概述 1. 前面讲过，随着计算机发展到世界各地，于是各个国家和地区各自为政，搞出了很多既兼容ASCII但又互相不兼容的各种编码方案。这样一来同一个二进制编码就有可能被解释成不同的字符，导致不同的字符集在交换数据时带来极大的不便。比如大陆和台湾是只相隔150海里、使用着同一种语阅读全文

posted @ 2017-05-28 12:55 笨笨阿林阅读(3985) 评论(0) 推荐(1)

刨根究底字符编码之七——ANSI编码与代码页(Code Page)

摘要：ANSI编码与代码页(Code Page) 一、ANSI编码 1. 如前所述，在全世界所有国家和民族的文字符号统一编码的Unicode编码方案问世之前，各个国家、民族为了用计算机记录并显示自己的字符，都在ASCII编码方案的基础上，设计了各自的编码方案。比如欧洲先后设计了EASCII和ISO/IE 阅读全文

posted @ 2017-05-27 10:34 笨笨阿林阅读(13971) 评论(1) 推荐(7)

刨根究底字符编码之六——简体汉字编码中区位码、国标码、内码、外码、字形码的区别及关系

摘要：简体汉字编码中区位码、国标码、内码、外码、字形码的区别及关系简体汉字编码中区位码、国标码、内码、外码、字形码的区别及关系 GB2312、GBK、GB18030等GB类汉字编码方案的具体实现方式是怎样的？区位码是什么？国标码是什么？内码、外码、字形码又是什么意思？它们是如何转换的，又为什么要这样转换阅读全文

posted @ 2017-05-26 12:29 笨笨阿林阅读(15637) 评论(3) 推荐(4)

刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK

摘要：简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK 简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK 简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK 简体汉字编码阅读全文

posted @ 2017-05-25 11:20 笨笨阿林阅读(7372) 评论(3) 推荐(5)

刨根究底字符编码之四——EASCII及ISO 8859字符编码方案

摘要：EASCII及ISO 8859字符编码方案 1. 计算机出现之后，首先逐渐从美国发展到了欧洲。由于欧洲很多国家所用到的字符中，除了基本的、美国也用的那128个ASCII字符之外，还有很多衍生的拉丁字母等字符。比如，在法语中，字母上方有注音符号；而欧洲其他国家也有各自特有的字符。考虑到一个字节能够表阅读全文

posted @ 2017-05-24 10:19 笨笨阿林阅读(3507) 评论(3) 推荐(2)

刨根究底字符编码之三——字符编码的由来

摘要：字符编码的由来一、为什么需要对字符进行编码 1. 计算机一开始发明出来时是用来解决数字计算问题的，后来人们发现，计算机还可以做更多的事，例如文本处理。但计算机其实挺笨的，它只“认识”010110111000…这样由0和1两个数字组成的二进制数字，这是因为计算机的底层硬件实现就是用电路的开和闭两种阅读全文

posted @ 2017-05-23 10:03 笨笨阿林阅读(2956) 评论(1) 推荐(5)

刨根究底字符编码之二——关键术语解释(下)

摘要：分别介绍了现代字符编码模型的五个层次：抽象字符表ACR、编号字符集CCS、字符编码方式CEF、字符编码模式CES、传输编码语法TES。阅读全文

posted @ 2017-05-21 21:49 笨笨阿林阅读(2816) 评论(3) 推荐(2)

刨根究底字符编码之一——关键术语解释(上)

摘要：由于历史的原因，早期一般认为字符集和字符编码是同义词。因此在像ASCII这样的简单字符集为代表的传统字符编码模型中，这两个概念的含义几乎是等同的。但是，在由Unicode和UCS为代表的现代字符编码模型中，这两个概念的含义完全不同。阅读全文

posted @ 2017-05-20 15:50 笨笨阿林阅读(5720) 评论(4) 推荐(8)

刨根究底字符编码之零——前言

摘要：字符编码是计算机世界里最基础、最重要的一个主题之一。在编程实践中，如果不发扬死磕到底的精神将字符编码问题的来龙去脉、前世今生彻底搞清楚，那么它终将会像幽灵一样挥之不去，导致时不时地被各种与字符编码相关的“灵异”事件折磨得死去活来。阅读全文

posted @ 2017-05-20 13:35 笨笨阿林阅读(3097) 评论(7) 推荐(15)

随笔分类 - 刨根究底字符编码