【补充】字符编码
【补充】字符编码
- 计算机的计量单位
- 计算机的计量单位主要包括存储容量、处理速度和数据传输速率等。
(1)存储容量的计量单位:
- 位(bit):表示最小的存储单位,取值为0或1。
- 字节(Byte):8个位组成一个字节,是计算机中常用的最小存储单位。
- 千字节(KB):1 KB = 1024 字节,约等于1000 字节。
- 兆字节(MB):1 MB = 1024 KB,约等于1000 KB。
- 吉字节(GB):1 GB = 1024 MB,约等于1000 MB。
- 太字节(TB):1 TB = 1024 GB,约等于1000 GB。
- 拍字节(PB):1 PB = 1024 TB,约等于1000 TB。
- ASCII(美国标准信息交换码):
- ASCII 是最早的字符编码之一
- 于 1963 年开发
- 使用 7 位二进制数表示 128 个字符
- 包括英文字母、数字和一些常用符号。
- 扩展 ASCII:
- 为了满足其他语言的字符需求
- 扩展 ASCII 字符编码在 ASCII 的基础上增加了一个额外的 8 位来表示更多字符。
- 其中,ISO-8859 系列是常见的扩展 ASCII 编码
- 如 ISO-8859-1(西欧字符集)。
- Unicode(统一码):
- 为了解决不同国家和地区字符集的混乱问题,Unicode 应运而生。
- Unicode 采用 16 位的编码空间,能够表示更多的字符
- 目前版本的 Unicode 可以容纳超过 13 万个字符。
- 最常见的编码方式是 UTF-8、UTF-16 和 UTF-32。
- UTF-8:
- UTF-8 是一种变长字符编码方式
- 可以用 1 至 4 个字节来表示一个字符。
- 它兼容 ASCII 编码
- 在表示 ASCII 字符时只需使用 1 个字节。
- UTF-16:UTF-16 使用固定的 16 位编码表示字符,可以表示 Unicode 码点从 U+0000 到 U+FFFF 的字符。对于码点大于 U+FFFF 的字符,UTF-16 采用了一种特殊的编码方式来表示。
- UTF-32:UTF-32 使用 32 位的编码空间来直接表示 Unicode 码点,每个字符都占用 4 个字节。UTF-32 简化了字符编码和处理过程,但相对于 UTF-8 和 UTF-16,它需要更多的存储空间。
- UTF-8 是一种变长字符编码方式
- 它可以用不同长度的字节来表示不同范围的 Unicode 字符。
具体的表示规则如下:
对于 ASCII 字符(码点范围:U+0000 到 U+007F)
- UTF-8 使用一个字节表示,即 8 位二进制数,前面以 0 开头。
对于以字节 110xxxxx 开头的连续 2 个字节
- 表示的是 Unicode 码点范围为 U+0080 到 U+07FF 的字符。
- 其中,xxxxx 是对应字符在 UTF-8 编码中的后 5 位。
对于以字节 1110xxxx 开头的连续 3 个字节
- 表示的是 Unicode 码点范围为 U+0800 到 U+FFFF 的字符。
- 其中,xxxx 是字符在 UTF-8 编码中的后 4 位。
对于以字节 11110xxx 开头的连续 4 个字节
- 表示的是 Unicode 码点范围为 U+10000 到 U+10FFFF 的字符。
- 其中,xxx 是字符在 UTF-8 编码中的后 3 位。
这种变长编码方式使得 UTF-8 可以灵活地表示多种字符
- 根据字符所处的 Unicode 码点范围
- 使用不同长度的字节进行编码。
相比于定长编码方式(如 UTF-16 和 UTF-32)
- UTF-8 在表示 ASCII 字符时非常节省空间
- 而且对于常用的字符集(如拉丁字母、汉字等)
- 使用较少的字节进行编码。
这使得 UTF-8 成为广泛应用于互联网、操作系统和软件开发中的一种字符编码方式。
(2)处理速度的计量单位:
- 赫兹(Hz):指代每秒钟的处理周期数。常见的处理器时钟频率单位有 MHz(百万赫兹)、GHz(十亿赫兹)等。
(3)数据传输速率的计量单位:
- 比特每秒(bps):数据传输速率的基本单位,表示每秒传输的比特数。
- 千比特每秒(Kbps):1 Kbps = 1024 bps,约等于1000 bps。
- 兆比特每秒(Mbps):1 Mbps = 1024 Kbps,约等于1000 Kbps。
- 吉比特每秒(Gbps):1 Gbps = 1024 Mbps,约等于1000 Mbps。
本文来自博客园,作者:Chimengmeng,转载请注明原文链接:https://www.cnblogs.com/dream-ze/p/17580131.html

浙公网安备 33010602011771号