对于字符编码的理解

1.对于ASCII码的理解

  采用一个字节来表示英文、数字的符号,将其与二进制一一对应,字节第一位为0,共编制128个符号,其中32个不能打印出来

2.非ASCII编码

  由于一个字节可以表示256个字符,前0-127还是当时美国所表示的符号,各个国家根据自己的符号,编制属于自己的128-256位符号,但是这样还是存在问题,无法全部表示。所以出现汉字采用两个字节来进行编码GB2312,理论上可以表示256*256=65536个符号

3.Unicode编码

  为了解决这种每个国家都有自己编码规则的问题,希望出现一种涵盖所有符号的编码集,这就是Unicode编码,但是由于该编码方式只是将符号与二进制一一对应,对于计算机无法知道应该用几个字节来解释这种二进制表示,所有如果采用三四个字节表示符号,会出现其他字节位的浪费。

4.UTF-8

  为了解决这样的问题,出现了变长编码方式来解决这样的问题。

UTF-8规定可以用二进制开头的1的个数规定该符号采用的几个字节编码存储。

 

 

  

 

posted @ 2020-03-07 13:15  Coder-GTN-ZY  阅读(253)  评论(0)    收藏  举报