字符编码的发展史

字符编码（Character encoding）也称字集码，是把字符集中的字符编码为指定集合中某一对象（例如：比特模式、自然数序列、8位组或者电脉冲），以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中，ASCII将字母、数字和其它符号编号，并用7比特的二进制来表示这个整数。通常会额外使用一个扩充的比特，以便于以1个字节的方式存储。

阶段一

　　我们在计算机里面的一切数据都是以数字来表示，因为英文符号有限，而且计算机只认识数字。

　　所以规定使用的字节的最高位是0，没一个字节都是以0~127之间的数字来表示，比如A对应65，a对应97.

　　这就是标准信息交换码 “ASCII”

阶段二

　　随着计算机在全球的普及的同时，很多国家和地区也都把自己的字符引入了计算机比如汉字。

　　那么此时发现一个字节能表示数字范围太小，不能包含所有的中文汉字，那么就规定使用两个字节来表示一个汉字。

　　中文字符的每一个字节最高规定为1，这个规定就是GB2312编码，后来在GB2312的基础上增加了更多的中文字符，汉字就是其中之一，因此也就出现了“GBK”。

常见的字符集

ASCII：占一个字节，只能包含128个字符，不能表示汉字

ANSI：占两个字节，在简体中文的操作系统中ANSI就是指的GB2312

ISO-8859-1：占一个字节，收录西欧语言，不能表示汉字

GB2312/GBK/GB1830：占两个字节，可表示汉字

UTF-8：一种针对Unicode的可变长度字符编码，又称万国码，UTF-8用一到六个字节编码Unicode字符。用于在网页上可以统一显示中文简体繁体及其他语言。

posted @ 2021-08-17 15:33 孤-阳阅读(431) 评论(0) 收藏举报

刷新页面返回顶部

孤-阳

字符编码的发展史

公告