Python概念_01

基本概念

  • 字符(Character):文字、标点符号、图形符号、数字等。比如,一个英文字母,一个数字,一个标点符号等都是一个字符。

  • 字符集(Character set):字符的集合。比如, ASCII 字符集、GB2312 字符集、Unicode 字符集等。ASCII 字符集 共有 128 个字符,包含 可显示字符(比如英文大小写字符、阿拉伯数字)和 控制字符(比如空格键、回车键);GB2312 字符集 是中国国家标准的简体中文字符集,包含简化汉字、一般符号、数字等;Unicode 字符集 则包含了世界各国语言中使用到的所有字符。

  • 字符编码(Character encoding): 将字符编码为特定的二进制数,以便计算机处理。一般而言,字符集和字符编码往往被认为是 同义 的概念,选用了某种字符集就相当于选定了该字符编码。

常见字符编码

  • ASCII:美国制定的一套字符编码方案,规定了英文字母,数字和一些普通符号跟二进制的转换关系。比如, A 的二进制表示是 01000001(十进制 65),a 的二进制表示是 01100001 (十进制 97),空格 SPACE 的二进制表示是 00100000(十进制 32)。

  • Unicode:ASCII 码只规定了 128 个字符的编码,用来表示其他语言是远远不够的,所以,不同的国家和地区制定了自己的编码方案,比如中国大陆的 GB2312 编码 和 GBK 编码等,日本的 Shift_JIS 编码等等。为了避免不同国家和地区的计算机在数据传输的过程中出现的乱码问题,后来诞生了一套编码方案叫 Unicode,它为每种语言的每个字符设定了独一无二的二进制编码,这样就可以跨语言,跨平台进行文本处理了。Unicode 标准使用 十六进制数字,而且在数字前面加上 前缀 U+,比如,A 的 unicode 编码为 U+0041, 的 unicode 编码为 U+4E25。

  • UTF-8:Unicode 存在严重的资源浪费问题,于是,后续人们实现了 UTF-16, UTF-32 和 UTF-8。UTF-8 (8-bit Unicode Transformation Format) 是一种针对 Unicode 的 可变长度 字符编码,它使用一到四个字节来表示字符,例如,ASCII 字符继续使用一个字节编码,阿拉伯文、希腊文等使用两个字节编码,常用汉字使用三个字节编码,等等。因此,我们说,UTF-8 是 Unicode 的实现方式之一

UnicodeEncodeError & UnicodeDecodeError问题 <待续>

posted @ 2022-08-04 15:42  Ganders  阅读(42)  评论(0)    收藏  举报