字符编码的发展史

字符编码  (Character encoding)也称字集码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中,ASCII将字母、数字和其它符号编号,并用7比特的二进制来表示这个整数。通常会额外使用一个扩充的比特,以便于以1个字节的方式存储。
 
阶段一
  我们在计算机里面的一切数据都是以数字来表示,因为英文符号有限,而且计算机只认识数字。
  所以规定使用的字节的最高位是0,没一个字节都是以0~127之间的数字来表示,比如A对应65,a对应97.
  这就是标准信息交换码  “ASCII”

 阶段二

  随着计算机在全球的普及的同时,很多国家和地区也都把自己的字符引入了计算机比如汉字。

  那么此时发现一个字节能表示数字范围太小,不能包含所有的中文汉字,那么就规定使用两个字节来表示一个汉字。

  中文字符的每一个字节最高规定为1,这个规定就是GB2312编码,后来在GB2312的基础上增加了更多的中文字符,汉字就是其中之一,因此也就出现了“GBK”

 

 


常见的字符集

ASCII:占一个字节,只能包含128个字符,不能表示汉字

ANSI:占两个字节,在简体中文的操作系统中ANSI就是指的GB2312

ISO-8859-1:占一个字节,收录西欧语言,不能表示汉字

GB2312/GBK/GB1830:占两个字节,可表示汉字

UTF-8:一种针对Unicode的可变长度字符编码,又称万国码,UTF-8用一到六个字节编码Unicode字符。用于在网页上可以统一显示中文简体繁体及其他语言。

posted @ 2021-08-17 15:33  孤-阳  阅读(431)  评论(0)    收藏  举报