计算机编码--字符集和编码规则

计算机的世界是0和1的世界
 
我们知道计算机的全部其实就是数据加指令
指令和数据都以二进制的形式存储和传输
 
所有的数据在计算机的内存中都是以二进制的形式存在
存:我们从界面上看到的字符、数字、图片如何转换成二进制进行存储?
取:当我们需要从计算机中读取文档时,这些二进制的数据又如何转换成我们需要的格式?
 
带着这些问题,今天来一探究竟?
计算机不论是存和取得过程都离不开字符集和编码规则。
只有定义好了字符集和编码规则这两个要素,你存储在计算机中得文档打开时才会正确得显示。
 以下常见得字符集和存储占用得空间大小
ASCII 字符集、1个字节,收录128个字符,最多能表示256个字符
GB2312字符集、2个字节,兼容ASCII,最多能表示65536个字符(字符集收录21886个符号)
Big5字符集、变字节(1ASCII,2,4)兼容ASCII
Unicode字符集 针对各国文字符号进行统一的编码(收录65534个字符)定长双字节编码
 
针对 Unicode编码,2个字节表示英文字母浪费内存,所以
utf8 编码规则,编码后大小时变得,从1到6个字节不等,英文字母1个字节,汉字3个字节表示
utf16  2字节
 
比如:汉字“我”
在GBK字符集中 10进制码为52946 二进制形式
在Unicode字符集中 10进制码为25105 二进制形式
 
通过字符集中数字与相应字符的映射,我们计算机里面所有的字符都有一个数字代号,存储得时候我们存储得是这个数字代号得二进制形式。
当我们需要读出来的时候再根据这个映射与找到相应的字符,表示出来,这便是我们存储与读取的过程。
 
 

posted @ 2019-04-19 16:00  无智  阅读(1132)  评论(0编辑  收藏  举报