汉字编码

1. GB

GB2312字集是简体字集, 共包括国标简体汉字6763个。

GB12345是与GB2312对应的国标繁体字符集,其码与GB2312中简体汉字码相兼容内,仅字型有简、繁容体的区别,共计6,866字。

特点:系统内会把简体汉字转成繁体汉字,但是繁体字不能转换为简体字。

 

2. BIG5 

BIG5字集是台湾繁体字集,共包括国标繁体汉字13053个。

特点:系统内只认识繁体不识别简体。

 

3. GBK 

GBK字集是简繁字集, 包括了GB字集, BIG5字集和一些符号, 共包括21003个字符。

特点:使用了双字节编码方案,GBK格式的字体都比较大,它包含了所有简体和繁体汉字。

 

4. Unicode

Unicode也是一种字符编码方法, 由国际组织设计, 可以容纳全世界所有语言文字的编码方案。

ASCII, GB2312, GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容, 与GB码不兼容。

例如:"汉"字的Unicode编码是6C49, 而GB码是BABA。

 

5. UTF

UTF是“Unicode Transformation Format”的缩写,UTF是一套基于Unicode编码的存储规则。

 

参考

https://www.cnblogs.com/malecrab/p/5300497.html

https://www.cnblogs.com/malecrab/p/5300486.html

https://www.cnblogs.com/zhaoqingqing/p/4410310.html

posted @ 2020-12-29 10:57  何文西  阅读(796)  评论(0编辑  收藏  举报