【自学嵌入式:计算机组成原理】8. 二进制表示文字

8. 二进制表示文字

一、二进制与信息表示的基础

计算机以二进制(0和1)为核心编码方式,其本质是利用物理设备的两种稳定状态(如电路的通/断、光源的亮/灭)表示信息。这种方式具备以下优势:

  • 物理实现简单:两种状态易区分、抗干扰(如电压高低只需识别阈值,无需精确测量);
  • 逻辑兼容性:契合布尔代数(True/False 对应 1/0),可直接用于逻辑运算与数据处理。

案例:《三体》中的“宇宙闪烁”

在《三体》剧情中,“宇宙闪烁”通过恒星的亮灭周期传递信息,本质是一种二进制编码:

  • 亮 → 1(或摩斯码的“点”●)
  • 灭 → 0(或摩斯码的“划”—)

这种编码方式验证了一个核心思想:只要约定“状态映射规则”,简单的二进制状态可表达复杂信息

二、编码:信息数字化的“翻译规则”

编码是信息与二进制序列的映射约定,需同时定义“编码规则”(信息→二进制)与“解码规则”(二进制→信息)。以下通过摩斯码说明编码的基本逻辑。

摩斯码的编码机制

摩斯码是一种经典的字符编码,通过“点(●,短信号)”和“划(—,长信号)”的组合表示字符。例如:

  • 字母 A → ●—
  • 字母 B → —●●●

编码的灵活性体现在:

  • 明码:规则公开(如国际摩斯码表),用于通用通信(如电报);
  • 密码:规则私有(如双方约定特定组合代表密文),用于保密通信(如将 Q 的标准码“— — ● —”重新映射为 Y)。

本质:编码的“约定性”

无论明码还是密码,核心是通过“状态组合规则”扩展信息表达能力。即使物理状态只有2种(如亮/灭),通过增加“状态持续时间”(点/划)或“序列长度”,可表示的信息数量会指数级增长。

三、文字的二进制编码体系

image

1. ASCII码:英文环境的基础编码

计算机起源于英文环境,最初需解决英文字母、数字、符号的二进制表示问题。由此诞生了 ASCII(美国信息交换标准代码,American Standard Code for Information Interchange)

  • 编码结构:7位二进制数(\(2^7 = 128\) 种组合),可表示 128 个字符;
  • 覆盖内容:英文字母(大小写)、数字(0-9)、标点符号、控制字符(如换行、空格);
  • 作用:统一英文文本的二进制表示,解决不同设备间的数据兼容性。

2. 汉字编码:解决非英文文本的表示

由于汉字数量庞大(常用字超数千个),ASCII的7位编码无法覆盖,因此需要专门的汉字编码体系。以下是中国汉字编码的发展历程:

(1)GB2312编码(1981年)

  • 定位:中国大陆简体中文的基础编码标准;
  • 内容:收录 7445 个图形字符,其中汉字 6763 个(覆盖常用简体字);
  • 编码方式:采用 2 字节(16位二进制,\(2^{16} = 65536\) 种组合),通过分区管理字符(如汉字区、符号区)。

(2)BIG5编码(1984年)

  • 定位:中国台湾地区的繁体中文编码标准;
  • 内容:收录 13053 个中文字符(覆盖常用繁体字);
  • 局限性:与GB2312不兼容,跨地区文本交互需转换。

(3)GBK编码(2000年)

  • 定位:GB2312的扩展版,支持更全面的汉字与符号;
  • 内容:收录 21003 个汉字,包含 GB2312 全部字符、BIG5 繁体汉字,以及日韩汉字;
  • 优势:兼容GB2312,解决了简繁体、跨语言的文本表示需求。

3. 编码的核心逻辑

文字编码的本质是通过增加二进制位数,扩展可表示的字符数量

  • ASCII(7位)→ 128 字符;
  • GB2312/GBK(16位)→ 数万个字符。

这种扩展体现了二进制编码的灵活性:基础状态(0/1)不变,通过增加“状态组合长度”或“组合规则”,可覆盖更复杂的信息需求

总结
信息的数字化表示依赖二进制编码,核心是通过“状态映射规则”将复杂信息转换为0和1的序列。从摩斯码到文字编码(ASCII、GB2312/GBK),本质是不断优化“编码规则”以适配更丰富的信息表达需求。理解编码的约定性与扩展性,是掌握计算机数据表示的基础。

posted @ 2025-07-13 13:14  秦瑞迁  阅读(390)  评论(0)    收藏  举报