05 2017 档案

刨根究底正则表达式之零——前言
摘要:说明: 虽然本系列文章后续会简单介绍正则表达式的一些基础知识,但主要限于本系列文章所想强调的要点,因此本系列文章并不适合用于入门。 若你是对正则表达式没有任何概念的初学者,建议至少先阅读网上备受推崇的《正则表达式30分钟入门教程》,时间允许的话最好再阅读《正则表达式必知必会》(才130多页,写得非常 阅读全文

posted @ 2017-05-31 22:04 笨笨阿林 阅读(4232) 评论(12) 推荐(25)

刨根究底字符编码之十——Unicode字符集的编码方式以及码点、码元
摘要:Unicode字符集的编码方式以及码点、码元 一、字符编码方式CEF的选择 1. 由于Unicode字符集非常大,有些字符的编号(码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用两个或两个以上字节。 比如,汉字“严”的Unicode码(Unicode码点值、Unicode编 阅读全文

posted @ 2017-05-30 21:40 笨笨阿林 阅读(17125) 评论(1) 推荐(5)

刨根究底字符编码之九——字符编码方案的演变与字节序
摘要:字符编码方案的演变与字节序 一、字符编码方案的演变 1. 前文已经提及,编号字符集CCS(简称字符集)与字符编码方式CEF(简称编码方式)这两个概念,在早期并没有必要严格区分。 在Unicode编码方案出现之前,字符集及其具体的编码方式是绑定耦合在一起的,因此,“字符集”、“编码”或“编码方式”甚至 阅读全文

posted @ 2017-05-29 18:13 笨笨阿林 阅读(2759) 评论(4) 推荐(5)

刨根究底字符编码之八——Unicode编码方案概述
摘要:Unicode编码方案概述 1. 前面讲过,随着计算机发展到世界各地,于是各个国家和地区各自为政,搞出了很多既兼容ASCII但又互相不兼容的各种编码方案。这样一来同一个二进制编码就有可能被解释成不同的字符,导致不同的字符集在交换数据时带来极大的不便。 比如大陆和台湾是只相隔150海里、使用着同一种语 阅读全文

posted @ 2017-05-28 12:55 笨笨阿林 阅读(3940) 评论(0) 推荐(1)

刨根究底字符编码之七——ANSI编码与代码页(Code Page)
摘要:ANSI编码与代码页(Code Page) 一、ANSI编码 1. 如前所述,在全世界所有国家和民族的文字符号统一编码的Unicode编码方案问世之前,各个国家、民族为了用计算机记录并显示自己的字符,都在ASCII编码方案的基础上,设计了各自的编码方案。 比如欧洲先后设计了EASCII和ISO/IE 阅读全文

posted @ 2017-05-27 10:34 笨笨阿林 阅读(13857) 评论(1) 推荐(7)

刨根究底字符编码之六——简体汉字编码中区位码、国标码、内码、外码、字形码的区别及关系
摘要:简体汉字编码中区位码、国标码、内码、外码、字形码的区别及关系 简体汉字编码中区位码、国标码、内码、外码、字形码的区别及关系 GB2312、GBK、GB18030等GB类汉字编码方案的具体实现方式是怎样的?区位码是什么?国标码是什么?内码、外码、字形码又是什么意思?它们是如何转换的,又为什么要这样转换 阅读全文

posted @ 2017-05-26 12:29 笨笨阿林 阅读(15427) 评论(3) 推荐(4)

刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK
摘要:简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK 简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK 简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK 简体汉字编码 阅读全文

posted @ 2017-05-25 11:20 笨笨阿林 阅读(7267) 评论(3) 推荐(5)

刨根究底字符编码之四——EASCII及ISO 8859字符编码方案
摘要:EASCII及ISO 8859字符编码方案 1. 计算机出现之后,首先逐渐从美国发展到了欧洲。由于欧洲很多国家所用到的字符中,除了基本的、美国也用的那128个ASCII字符之外,还有很多衍生的拉丁字母等字符。比如,在法语中,字母上方有注音符号;而欧洲其他国家也有各自特有的字符。 考虑到一个字节能够表 阅读全文

posted @ 2017-05-24 10:19 笨笨阿林 阅读(3471) 评论(3) 推荐(2)

刨根究底字符编码之三——字符编码的由来
摘要:字符编码的由来 一、为什么需要对字符进行编码 1. 计算机一开始发明出来时是用来解决数字计算问题的,后来人们发现,计算机还可以做更多的事,例如文本处理。 但计算机其实挺笨的,它只“认识”010110111000…这样由0和1两个数字组成的二进制数字,这是因为计算机的底层硬件实现就是用电路的开和闭两种 阅读全文

posted @ 2017-05-23 10:03 笨笨阿林 阅读(2925) 评论(1) 推荐(5)

刨根究底字符编码之二——关键术语解释(下)
摘要:分别介绍了现代字符编码模型的五个层次:抽象字符表ACR、编号字符集CCS、字符编码方式CEF、字符编码模式CES、传输编码语法TES。 阅读全文

posted @ 2017-05-21 21:49 笨笨阿林 阅读(2778) 评论(3) 推荐(2)

刨根究底字符编码之一——关键术语解释(上)
摘要:由于历史的原因,早期一般认为字符集和字符编码是同义词。因此在像ASCII这样的简单字符集为代表的传统字符编码模型中,这两个概念的含义几乎是等同的。但是,在由Unicode和UCS为代表的现代字符编码模型中,这两个概念的含义完全不同。 阅读全文

posted @ 2017-05-20 15:50 笨笨阿林 阅读(5655) 评论(4) 推荐(8)

刨根究底字符编码之零——前言
摘要:字符编码是计算机世界里最基础、最重要的一个主题之一。在编程实践中,如果不发扬死磕到底的精神将字符编码问题的来龙去脉、前世今生彻底搞清楚,那么它终将会像幽灵一样挥之不去,导致时不时地被各种与字符编码相关的“灵异”事件折磨得死去活来。 阅读全文

posted @ 2017-05-20 13:35 笨笨阿林 阅读(3068) 评论(7) 推荐(15)

导航