编码方式小解

ASCII

简介: 最早出现的编码方式，全称:American Standard Code for Information Interchange，美国信息互换标准代码

内容: 大小写字母、数字、标点符号、空格用连续的字节状态表示（不包括扩展字符集）

长度: 1个字节 8位

数目: 最初0~127 随着计算机的普及扩展到255，后面的被称为“扩展字符集”，终于达到阈值，前128位不变，后面的是扩展集，可改变

GB2312

简介: 国人对ASCII的扩展字符集，前128未不变，两个大于127的字符连在一起时表示一个汉字，前面一个字节（高字节）从0xA1到0xF7，后面一个字节（低字节）从oxA1到oxFE，

组合成大约7000个简体汉字，也加入数字符号，罗马希腊字母，日文假名等，连原有的字母、数字、标点、空格也重新编成两个字节长，这就是“全角字符”，127以下的叫“半角”字符

内容: 原有的基础上加上部分汉字，数学符号，罗马希腊字母，日文假名

长度: 前128 一个字节 8位（半角），后面两个字节 16位（全角）

GBK，GB18030

简介: GBK是对GBK2312的改进，GB18030是对GBK的改进

内容: 更多的汉字，繁体字，符号，GB18030还包括部分少数民族文字

长度: 前128 一个字节 8位（半角），后面两个字节 16位（全角）

UNICODE

简介: 为应对各国都弄出的五花八门的编码方式导致乱了套，ISO废了所以的地区性编码方案，搞出一个包括地球上所有文化，字母和符号的编码，全称“Universal Multiple-Octet Coded Character Set”，简称UCS

内容: 地球上所有文化，字母和符号的编码

长度: 全部两个字节 16位，不过前128位的前八位都是0！

与GBK的冲突:在制订时没有考虑与任何一种现有的编码方案保持兼容，这使得 GBK 与UNICODE 在汉字的内码编排上完全是不一样的，没有一种简单的算术方法可以把文本内容从UNICODE编码和另一种编码进行转换，这种转换必须通过查表来进行

UTF-8, UTF-16

简介: 为了解决UNICODE在网络上传输的问题，面向传输的UTF（UCS Transfer Format）标准出现，UTF-8每次8位传输数据，UTF16每次16个位，只不过为了传输时的可靠性，从UNICODE到 UTF时并不是直接的对应，而是要通过一些算法和规则来转换。

长度: UTF-8 汉字通常占3个字节，扩展B区占4个， UTF-16编码，通常汉字占两个字节，CJKV扩展B区、扩展C区、扩展D区中的汉字占四个字节

国内依旧有人使用GBK，这最初是出于空间的考虑，UNICODE体积较大，但随着电脑空间的扩大已经无关紧要，建议统一使用UTF-8！

Base64

简介: 某些系统只能使用ASCII，Base64就是用来将非ASCII字符的数据转换成ASCII字符的一种方法，例如图片、文档，特别适合在http，mime协议下快速传输数据。

posted @ 2016-11-11 20:19 炎泽阅读(296) 评论(0) 编辑收藏举报

刷新页面返回顶部

炎泽