非数值数据的编码方式预习

非数值数据的编码方式预习

非数值数据的类型:

逻辑数据,字符数据,汉字数据,图像数据等等。

ASCII编码:


ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码,使用7 位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0 到9、标点符号, 以及在美式英语中使用的特殊控制字符。
GBK编码:由于ASCII编码不支持中文,因此,当中国人用到计算机时,就需要寻求一种编码方式来支持中文。于是,国人就定义了一套编码规则:当字符小于127位时,与ASCII的字符相同,但当两个大于127的字符连接在一起时,就代表一个汉字,第一个字节称为高字节(从0xA1-0xF7),第二个字节为低字节(从0xA1-0xFE),这样大约可以组合7000多个简体汉字。这个规则叫做GB2312。

汉字字符:

1个汉字字符存储需要2个字节,1个英文字符存储需要1个字节。  字符是可使用多种不同字符方案或代码页来表示的抽象实体。例如,Unicode UTF-16 编码将字符表示为 16 位整数序列,而 Unicode UTF-8 编码则将相同的字符表示为 8 位字节序列。公共语言运行库使用 Unicode UTF-16(Unicode 转换格式,16 位编码形式)表示字符。

汉字的输入码:

汉字输入码也称外码,是为将汉字输入到计算机设计的代码。汉字输入码种类较多,选择不同的输入码方案,则输入的方法及按键次数、输入速度均有所不同。综合起来,汉字输入码可分为流水码、拼音类输入法、拼形类输入法和音形结合类输入法几大类。

字符集与汉字内码:

按照内码的形式在系统中进行储存,查找,传输等处理,内码就是ASCII码。
内码选择考虑的因素:
1)不能有二议性,即不能和ASCII码有相同的编码。
2)要与汉字在字库中的位置有关系,以便于汉字的处理,查找。
编码应尽量短。

汉字的字模点阵码和轮廓描述:

1)字模点阵描述是将字库的各个汉字或其他字符的字形用一个其元素0和1组成的方阵。汉字或字符中有黑点用1表示,空白处用0表示。
2)汉字的轮廓描述是吧汉字笔画的轮廓用一组直线和曲线来勾画,记下直线和曲线的数学描述公式。

数据的宽度和单位:

1)计算机内部任何信息都被表示为二进制编码形式。二进制数据的每一位(0和1)组成的最小单位叫做比特(bit)或称为元,简称为位。PS:比特是计算机中处理、存储和传输信息的最小单位。
2)二进制信息的计量单位是字节(byte),也称为组。还有一个“字”作为单位的。
3)所谓字长指的是CPU内部用于整数运算的数据通路宽度。
4)字用来表示被处理信息的单位,用来量度各种数据类型的宽度。
5)字长表示进行数据运算、存储和传送的部件的宽度。
6)带宽单位。

数据的存储和排列顺序:

1)信息在计算机中用二进制编码后,得到的是一串0/1序列,每8位构成的一个字节,不同的数据类型具有不同的字节宽度。
2)最低有效位LSB表示最低位,最高有效位MSB表示最高位。最高位MSB是符号位。
3)计算机中,多字节数据都被放在连续的字节序列中。两种排列的方式:大端和小端
4)大端方式将数据的最高有效字节MSB存放在低地址单元中,将最低有效字节LSB放在高地址单元中。数据的地址就是MSB所在的地址。
5)小端方式将数据最高有效字节MSB存放在高地址汇总,将最低有效字节放在低地址中。数据就是LSB在的地址。

数据校验码:

1)由于元器件故障或者噪声干扰等原因会出现差错,为了提升计算机的抗干扰能力以及自动的发现并纠正错误。
2)码距:任何编码都由一组码字(code word)组成,两个码字间变化的二进制位数称为码距(code distance)。
3)码距与检错和纠错之间的关系。
若在一个码组内为了检测e个误码,最小的码距d应该满足 d>=e+1。
若在一个码组内为了纠正t个误码,最小的码距d应该满足 d>=2t+1。
若在一个码组内为了纠正t个错误,同时检测e(e>=t)个错误,要求最小码距d满足 d>t+e+1。

奇偶校验码:

每位异或判断是奇数个一还是偶数个一。奇偶校验码是奇校验码和偶校验码的统称. 它们都是通过在要校验的编码上加一位校验位组成. 如果是奇校验加上校验位后,编码中1的个数为奇数个。如果是偶校验加上校验位后,编码中1的个数为偶数个。

海明校验码:

海明码也是利用奇偶性来校验数据的. 它是一种多重奇偶校验检错系统,它通过在数据位之间插入k个校验位,来扩大码距,从而实现检错和纠错。

循环冗余校验码:

实现方法:利用除数以及余数的原理进行错误检测,将接收到的码组进行除法运算,如果除尽,则说明传输无误;如果未除尽,则表明传输出现差错。

posted on 2020-09-19 10:06  熊昌平  阅读(308)  评论(0编辑  收藏  举报