预习非数值数据的编码方式

*非数值数据的类型：
逻辑值，西文字符，中文字符。

1.逻辑值：
1）逻辑数据：将一个n位数据看成由n个一位数据组成，每个取值为0/1；提取一个数据项中的某位进行”置位，清零“等操作”；
2）逻辑运算：按位进行的。“按位与，按位或，逻辑左移去，逻辑右移”，他处理逻辑数据；
3）逻辑数据和数值数据：都是一串0/1序列，在形式上无差异，需要通过指令的操作码类型来识别他们；

2.西文字符：
西文由拉丁字母，数字，标点符号及一些特殊的符号组成，它们统称为字符。所有字符的集合叫做字符集；
1）字符不能直接在计算机内部进行处理，因而也必须对其进行数字化编码，字符集中每一个字符都有一个代码（即二进制编码0/1序列），
构成该字符集的代码表，简称码表。码表中的代码具有“唯一性”。
2）目前计算机中使用最广泛的西文字符集及其编码是ASCⅡ码。
优点：有利于实现ASCII码与十进制之间的转换；方便大小写字母转换。

NUL (0)
NULL，空字符。空字符起初本意可以看作为 NOP（中文意为空操作，就是啥都不做的意思），此位置可以忽略一个字符。
之所以有这个空字符，主要是用于计算机早期的记录信息的纸带，此处留个 NUL 字符，意思是先占这个位置，以待后用，比如你哪天想起来了，在这个位置在放一个别的啥字符之类的。
后来呢，NUL 被用于C语言中，表示字符串的结束，当一个字符串中间出现 NUL 时，就意味着这个是一个字符串的结尾了。这样就方便按照自己需求去定义字符串，多长都行，当然只要你内存放得下，然后最后加一个\0，即空字符，意思是当前字符串到此结束。

SOH (1)
Start Of Heading，标题开始。如果信息沟通交流主要以命令和消息的形式的话，SOH 就可以用于标记每个消息的开始。
1963年，最开始 ASCII 标准中，把此字符定义为 Start of Message，后来又改为现在的 Start Of Heading。
现在，这个 SOH 常见于主从（master-slave）模式的 RS232 的通信中，一个主设备，以 SOH 开头，和从设备进行通信。这样方便从设备在数据传输出现错误的时候，在下一次通信之前，去实现重新同步（resynchronize）。如果没有一个清晰的类似于 SOH 这样的标记，去标记每个命令的起始或开头的话，那么重新同步，就很难实现了。

STX (2) 和 ETX (3)
STX 表示 Start Of Text，意思是“文本开始”；ETX 表示 End Of Text，意思是“文本结束”。
通过某种通讯协议去传输的一个数据（包），称为一帧的话，常会包含一个帧头，包含了寻址信息，即你是要发给谁，要发送到目的地是哪里，其后跟着真正要发送的数据内容。
而 STX，就用于标记这个数据内容的开始。接下来是要传输的数据，最后是 ETX，表明数据的结束。
而中间具体传输的数据内容，ASCII 并没有去定义，它和你所用的传输协议有关。

BEL (7)
BELl，响铃。在 ASCII 编码中，BEL 是个比较有意思的东西。BEL 用一个可以听得见的声音来吸引人们的注意，既可以用于计算机，也可以用于周边设备（比如打印机）。
注意，BEL 不是声卡或者喇叭发出的声音，而是蜂鸣器发出的声音，主要用于报警，比如硬件出现故障时就会听到这个声音，有的计算机操作系统正常启动也会听到这个声音。蜂鸣器没有直接安装到主板上，而是需要连接到主板上的一种外设，现代很多计算机都不安装蜂鸣器了，即使输出 BEL 也听不到声音，这个时候 BEL 就没有任何作用了。

BS (8)
BackSpace，退格键。退格键的功能，随着时间变化，意义也变得不同了。
退格键起初的意思是，在打印机和电传打字机上，往回移动一格光标，以起到强调该字符的作用。比如你想要打印一个 a，然后加上退格键后，就成了 aBS^。在机械类打字机上，此方法能够起到实际的强调字符的作用，但是对于后来的 CTR 下时期来说，就无法起到对应效果了。
而现代所用的退格键，不仅仅表示光标往回移动了一格，同时也删除了移动后该位置的字符。

HT (9)
Horizontal Tab，水平制表符，相当于 Table/Tab 键。
水平制表符的作用是用于布局，它控制输出设备前进到下一个表格去处理。而制表符 Table/Tab 的宽度也是灵活不固定的，只不过在多数设备上制表符 Tab 都预定义为 4 个空格的宽度。
水平制表符 HT 不仅能减少数据输入者的工作量，对于格式化好的文字来说，还能够减少存储空间，因为一个Tab键，就代替了 4 个空格。

LF (10)
Line Feed，直译为“给打印机等喂一行”，也就是“换行”的意思。LF 是 ASCII 编码中常被误用的字符之一。
LF 的最原始的含义是，移动打印机的头到下一行。而另外一个 ASCII 字符，CR（Carriage Return）才是将打印机的头移到最左边，即一行的开始（行首）。很多串口协议和 MS-DOS 及 Windows 操作系统，也都是这么实现的。
而C语言和 Unix 操作系统将 LF 的含义重新定义为“新行”，即 LF 和 CR 的组合效果，也就是回车且换行的意思。
从程序的角度出发，C语言和 Unix 对 LF 的定义显得更加自然，而 MS-DOS 的实现更接近于 LF 的本意。
现在人们常将 LF 用做“新行（newline）”的功能，大多数文本编辑软件也都可以处理单个 LF 或者 CR/LF 的组合了。

VT (11)
Vertical Tab，垂直制表符。它类似于水平制表符 Tab，目的是为了减少布局中的工作，同时也减少了格式化字符时所需要存储字符的空间。VT 控制符用于跳到下一个标记行。
说实话，还真没看到有些地方需要用 VT，因为一般在换行的时候都是用 LF 代替 VT 了。

FF (12)
Form Feed，换页。设计换页键，是用来控制打印机行为的。当打印机收到此键码的时候，打印机移动到下一页。
不同的设备的终端对此控制符所表现的行为各不同，有些会清除屏幕，有些只是显示^L字符，有些只是新换一行而已。例如，Unix/Linux 下的 Bash Shell 和 Tcsh 就把 FF 看做是一个清空屏幕的命令。

CR (13)
Carriage return，回车，表示机器的滑动部分（或者底座）返回。
CR 回车的原意是让打印头回到左边界，并没有移动到下一行的意思。随着时间的流逝，后来人们把 CR 的意思弄成了 Enter 键，用于示意输入完毕。
在数据以屏幕显示的情况下，人们按下 Enter 的同时，也希望把光标移动到下一行，因此C语言和 Unix 重新定义了 CR 的含义，将其表示为移动到下一行。当输入 CR 时，系统也常常隐式地将其转换为LF。

SO (14) 和 SI (15)
SO，Shift Out，不用切换；SI，Shift In，启用切换。
早在 1960s 年代，设计 ASCII 编码的美国人就已经想到了，ASCII 编码不仅仅能用于英文，也要能用于外文字符集，这很重要，定义 Shift In 和 Shift Out 正是考虑到了这点。
最开始，其意为在西里尔语和拉丁语之间切换。西里尔语 ASCII（也即 KOI-7 编码）将 Shift 作为一个普通字符，而拉丁语 ASCII（也就是我们通常所说的 ASCII）用 Shift 去改变打印机的字体，它们完全是两种含义。
在拉丁语 ASCII 中，SO 用于产生双倍宽度的字符（类似于全角），而用 SI 打印压缩的字体（类似于半角）。

DLE (16)
Data Link Escape，数据链路转义。
有时候我们需要在通信过程中发送一些控制字符，但是总有一些情况下，这些控制字符被看成了普通的数据流，而没有起到对应的控制效果，ASCII 编码引入 DLE 来解决这类问题。
如果数据流中检测到了 DLE，数据接收端会对数据流中接下来的字符另作处理。但是具体如何处理，ASCII 规范中并没有定义，只是弄了个 DLE 去打断正常的数据流，告诉接下来的数据要特殊对待。

DC1 (17)
Device Control 1，或者 XON – Transmission on。
这个 ASCII 控制符尽管原先定义为 DC1，但是现在常表示为 XON，用于串行通信中的软件流控制。其主要作用为，在通信被控制符 XOFF 中断之后，重新开始信息传输。
用过串行终端的人应该还记得，当有时候数据出错了，按 Ctrl+Q（等价于XON）有时候可以起到重新传输的效果。这是因为，此 Ctrl+Q 键盘序列实际上就是产生 XON 控制符，它可以将那些由于终端或者主机方面，由于偶尔出现的错误的 XOFF 控制符而中断的通信解锁，使其正常通信。

DC3 (19)
Device Control 3，或者 XOFF（Transmission off，传输中断）。

EM (25)
End of Medium，已到介质末端，介质存储已满。
EM 用于，当数据存储到达串行存储介质末尾的时候，就像磁带或磁头滚动到介质末尾一样。其用于表述数据的逻辑终点，即不必非要是物理上的达到数据载体的末尾。

FS(28)
File Separator，文件分隔符。FS 是个很有意思的控制字符，它可以让我们看到 1960s 年代的计算机是如何组织的。
我们现在习惯于随机访问一些存储介质，比如 RAM、磁盘等，但是在设计 ASCII 编码的那个年代，大部分数据还是顺序的、串行的，而不是随机访问的。此处所说的串行，不仅仅指的是串行通信，还指的是顺序存储介质，比如穿孔卡片、纸带、磁带等。在串行通信的时代，设计这么一个用于表示文件分隔的控制字符，用于分割两个单独的文件，是一件很明智的事情。

GS(29)
Group Separator，分组符。
ASCII 定义控制字符的原因之一就是考虑到了数据存储。
大部分情况下，数据库的建立都和表有关，表包含了多条记录。同一个表中的所有记录属于同一类型，不同的表中的记录属于不同的类型。而分组符 GS 就是用来分隔串行数据存储系统中的不同的组。值得注意的是，当时还没有使用 Excel 表格，ASCII 时代的人把它叫做组。

RS(30)
Record Separator，记录分隔符，用于分隔一个组或表中的多条记录。

US(31)
Unit Separator，单元分隔符。
在 ASCII 定义中，数据库中所存储的最小的数据项叫做单元（Unit）。而现在我们称其字段（Field）。单元分隔符 US 用于分割串行数据存储环境下的不同单元。
现在的数据库实现都要求大部分类型都拥有固定的长度，尽管有时候可能用不到，但是对于每一个字段，却都要分配足够大的空间，用于存放最大可能的数据。这种做法的弊端就是占用了大量的存储空间，而 US 控制符允许字段具有可变的长度。在 1960s 年代，数据存储空间很有限，用 US 将不同单元分隔开，能节省很多空间。

DEL (127)
Delete，删除。
ASCII 编码中其它控制字符的值都很小，而 DEL 的值却很大。这是由于这个特殊的字符是为纸带而定义的。在那个年代，绝大多数的纸带都是用7个孔洞去编码数据的。而 127 这个值所对应的二进制值为111 1111（所有 7 个比特位都是1），将 DEL 用在现存的纸带上时，所有的洞就都被穿孔了，就把已经存在的数据都擦除掉了，就起到了删除的作用。

3.汉字字符：
输入码、内码、字模点阵码。
1）汉字的输入码：对每个汉字用相应的按键进行的编码表示方式，称为输入码，又称外码。
2）字符集与汉字内码：汉字被输入到计算机内部后，就按照一种称为内码的编码形式在系统中进行储存、查找、传送等处理。
①不能有二义性，即不能和ASCⅡ码有相同的编码。
②要与汉字在字库中的位置有关系，以便汉字的处理、查找。
③编码应尽量短。
3）汉字的字模点阵码和轮廓描述：经过计算机处理后的汉字，如果需要在屏幕上显示出来或打印机打印出来，则必须把汉字机内码转换成人们可以阅读的方块字形式。
①一套汉字的所有字符的形状描述信息集合在一起称为字形信息库，简称字库。
②汉字字形主要有两种描述方法：字模点阵码和轮廓描述。
③字模点阵描述是将字库中各个汉字或其他字符的字形（即字模）用一个其元素由0或1组成的方阵来表示。汉字或字符中有黑点的地方是1，空白处用0表示。
④汉字的轮廓描述是吧汉字笔画的轮廓用一组直线和曲线来勾画，记下直线和曲线的数学描述公式。（有Adobe Typel和TureType两种国际标准）此方法精度高，字形大小可以任意变化。

*数据的宽度宽度和储存：

数据的宽度与单位

计算机内部任何数据都被表示成二进制编码形式。二进制数据的每一位（0 or 1）二进制信息的最小单位，称为一个"比特"(bit)，简称"位"，bit是计算机中存储，运算和传输信息的最小单位。
每个西文字符需要用8个比特表示，而每个汉字需要用16个比特才能表示。计算机内部，二进制信息的计量单位是"字节"(Byte)，也成为"位组"。 1 Byte = 8 bit
计算机中运行和处理二进制信息时使用的单位除了比特和字节之外，还经常使用"字"(word)作为单位，必须注意，不同的计算机，字的长度和组成不完全相同，有的由2个字节组成，有的由4个，8个，甚至16个字节组成。

在考察计算机性能时，一个重要的指标就是机器的"字长"。平时所说的"某种机器是32位机或是64位机"，其中的32，64就是指的字长。所谓机器字长通常指CPU内部用于整数运算的数据通路的宽度，也就是说，"字长"等于CPU内部用于整数运算的运算器位数和通用寄存器宽度。
注 : "字"和"字长"的概念不同
|- "字"用来表示被处理信息的单位，用来度量各种数据类型的宽度，大小以机器为准
|-"字长"表示数据运算，存储和传送的部件的宽度，它反映了计算机处理信息的一种能力。

单位换算
1 B = 8 b
K ：1KB = 2^10 B = 1024 字节
M ：1MB = 2^20 B
G ：1GB = 2^30 B
T ：1TB = 2^40 B
P ：1PB = 2^50 B
E : 1EB = 2^60 B
Z : 1ZB = 2^70 B
Y : 1YB = 2^80 B

宽带单位
比特/秒（b/s）有时也写成为 bps
千比特/秒（kb/s） 1k/s = 10^3 b/s =1000 b/s
兆比特/秒（Mb/s） 1Mb/s = 10^6 b/s =1000 kb/s
吉比特/秒（Gb/s） 1Gb/s = 10^9 b/s =1000 Mb/s
太比特/秒（Tb/s） 1Tb/s = 10^12 b/s =1000 Gb/s

C语言中数值数据类型的宽度（字节(Byte)为单位）

另外，对于相同类型的数据，并不是所有机器都采用相同的数据宽度，分配的字节数随处理器和编译器的不同而不同
例如：指针类型一般认为32位机器是 4 个字节，64位机器是 8 个字节，这个没错，但是在64位的机器上编译程序，计算指针的大小，返回的是 4，这时认为是不是以前书上讲的是错的，其实不是，只不过编译选项里的平台是Win32，也就是在64位系统运行的是32位的程序，所以说是受编译器的影响

数据的储存和排列顺序

现代计算机基本上都采用字节编址方式，即对存储空间的存储单元编号时，每个地址编号中存放一个字节。

例如：在一个按字节编址的计算机中，假定int型变量i的地址为0800H，i的机器数为01 23 45 67H，根据不同的地址排序方式，i的4个字节01H，23H，45H，67H有不同的排列顺序
两种排列方式：

大端模式（big endian） : 将数据的最高有效字节存放在低地址单元，最低有效字节存放在高地址单元
小端模式（small endian） : 将数据的最高有效字节存放在高地址单元，最低有效字节存放在低地址单元

补充：网络序是大端模式

*数据校验码：

·码距与数据校验码

1.汉明距离：一组编码中任何两个编码之间代码不同的位数称为这两个编码的距离。
2.四位二进制编码表示16种状态，则这组编码码距为1，因为任何一位或几位出错，都会变成一个合法的编码，所以这组编码没有检错纠错的能力，但如果把这十六种状态分为两组，0000，0011，0101，0110，1001，1010，1100，1111用作合法编码，其余的用作非法编码，那这组编码码距就为2，有纠错能力，因为任意一位发生错误都可以检测出来。
3.要纠正t位错误，编码的码距需要2t+1，任何一个编码出现t位错误，都能唯一的确定原来的正确编码。
4.校验位越多，码距越大，编码的纠错能力和检错能力越强。d>=e+1时可检验e个错误，d>=2t+1时可纠正t个错误。
5.数据校验码所使用的二进制位数比正常数据编码要多，所以在使用过程中将增价数据存储的容量或数据传送的数量，实际应用中也要考虑不增加硬件开销的情况下尽可能发现或改正更多的错误。

·奇偶校验码

1.广泛应用于主存的读写校验或ASCII码字符传送过程中的检查。
2.奇校验与偶校验：分别是使n+1位的奇偶校验码中1的个数为奇数或偶数。
3.很明显，各位异或起来就得到了一位校验码，往后面添上就行了。
4.出现偶校验的标志：各校验码数位异或起来=E,E为0时表示无错，E为1时表示有错。
5.奇偶校验码只能发现奇数位错误，无法自动纠错，在CPU与主存的信息传送过程中，奇偶校验码被广泛应用。

·海明校验码

1.最关键的还是指误字，E1=p1^A5A6^A3A2^A0,E2=P2A6^A4A3^A1A0,E3=P4^A5A4^A3,E4=P8A2^A1A0.
2.若其为0000则无错，不为零则代表的十进制数就是出错的位号。

·循环冗余检验码

1.CRC编码思想：多项式编码方法，将待编码的n位有效信息看作是一个n阶的二进制多项式M(x),再用另一个约定多项式G(x)去除M(x),得到M(x)/G(x) =Q(x)+R(x)/G(x),其中Q(x)为除得的商数，R(x)为除得的余数，在传送过程中，发送方可把M(x)-R(x)作为编好的校验码进行传送，接收方接受到编号码后，仍用约定的多项式G(x）去整除，如果能够整除，则表示无误，不能则表示有误。
2.模2运算：包括加减，和模二乘除。

posted @ 2020-09-20 23:40 红蓼阅读(937) 评论(0) 收藏举报

周湘朋

预习非数值数据的编码方式

公告