编码理论|无失真信源编码
信源的分类
信源直观理解为信息来源,在一个固定的时刻,信源发出的是一个随机变量。随着时间的延续,信源发出一个又一个随机变量,称之为一个随机过程
- 离散信源:信源每隔一个定长时间段就发出一个随机变量,随着时间的延续,信源发出的是随机变量序列
- 离散无记忆信源 离散无记忆信源是这样的离散信源:随机变量…、U-2、U-1、U0、U1、U2、…相互独立。
- 离散无记忆简单信源 离散无记忆简单信源是这样的离散无记忆信源:随机变量…、U-2、U-1、U0、U1、U2、…具有相同的概率分布。
- 连续信源:有时间连续的信源,也有事件连续的信源;
- 有记忆信源:信源在不同时刻发出的随机变量相互依赖;
- 有限记忆信源:在有限时间差内的信源随机变量相互依赖
- 非简单信源:信源在不同时刻发出的随机变量具有不同的概率分布。
- 马尔可夫信源:信源随机过程是马尔可夫过程。
通信的根本任务(通信系统的评判标准):将一地点的信息可靠地、有效地、安全的传送到另一地点。
编码分类
- 信源编码:以提高通信有效性为目的的编码。通常通过压缩信源的冗余度来实现。采用的一般方法是压缩每个信源符号的平均比特数或信源的码率。即同样多的信息用较少的码率传送,使单位时间内传送的平均信息量增加,从而提高通信的有效性。
- 信道编码:是以提高信息传输的可靠性为目的的编码。通常通过增加信源的冗余度来实现。采用的一般方法是增大码率/带宽。与信源编码正好相反。
- 密码:是以提高通信系统的安全性为目的的编码。通常通过加密和解密来实现。从信息论的观点出发,“加密”可视为增熵的过程,“解密”可视为减熵的过程。
编码三定理
编码理论是信息论的一个重要部分,其理论基础是编码的三个定理及密码学基本理论。
- 无失真信源编码定理:研究在通信系统传输最有效的指标下,最优化的信源编、译码存在;反之,又在什么情况下最优化的信源编、译码不存在。
- 限失真信源编码定理:研究在通信系统传输最有效的指标下,讨论在满足失真度条件下,什么情况下最优化的信源编、译码存在;反之,又在什么情况下最优化的信源编、译码不存在。
- 信道编码定理研究通信系统在传输最可靠的指标下,通信系统和信道在什么条件下能实现统计匹配,即最优化的信道编、译码存在;反之,又在什么条件下不能实现统计匹配,即最优化的信道编、译码不存在。
无失真信源编码
编码器任务有两点:
(1)以码符号构成码字
(2)建立信源符号与码字的对应关系
码的分类
多元代码
码符号有r种元素,就称r代码
r=2成为二元码
同价代码
占有时间相同的码
等长代码
任意码字用同样多个码元构成,ASCII码,相应有非等长码
非奇异码
任意两个信源符号对一个的码字都不同
码S的N次拓展码\(S^N\)
单义代码
有限长的W只能唯一地分割成一个个码字w_i,等长码一定是单义码
非续长代码
任何一个码字都不是另一个码字的续长,非续长代码一定是单义代码
最终的目的:单义代码是我们所需要的
单义代码的存在性定理
定理:存在单义代码的充分和必要条件是
Kraft不等式
\(\sum_{i=1}^{k}r^{-n_i} \leq 1\)
r是X的元素个数
k是W码字的个数
\(n_i\)是码字\(w_i\)的码元个数
因为非续长代码一定是单义的,所以非续长码一定满足.
单义代码的构成方法:非续长代码一定是单义的。
单义代码—————用定义判断是否存在
非续长代码————方法(找出单义代码)
无失真信源编码定理
等长码一定是唯一可译码
不等长编码
出现概率大的信源符号用较短码字表示,出现概率小的信源符号用较长码字表示。
无失真信源编码定理(香农第一定理)
离散无记忆信源 $ S $ 的 $ N $ 次扩展信源 $ S^N = { a_1, a_2, \ldots, a_{qN} } $,共有 $ q^N $ 个符号序列,具有熵 $ H(S^N) $,并有 $ r $ 个码符号的符号集 $ X = { x_1, x_2, \ldots, x_r } $。若对信源 $ S^N $(即信源输出的是 $ N $ 长的符号序列)进行编码,总可以找到一种编码方法,构成唯一可译码,使信源 $ S $ 中每个信源符号所需的码字平均长度满足:
\(
\frac{H(S)}{\log r} \leq \frac{\bar{L}_N}{N} < \frac{1}{N} + \frac{H(S)}{\log r}
\)
其中 $ \bar{L}_N $:对 $ N $ 次扩展信源(序列长度为 \(N\))编码时的平均码长。\(\frac{\bar{L}_N}{N}\):平均每个信源符号所需要的码符号数。
由香农第一定理得到平均码长的理论极限:$ \frac {H(S)}{\log r} $
信源进行无失真压缩,其极限为信源的熵。
信源编码方法
符号独立化,解除相关性
概率均匀化,等概情况
符号独立化
延长法
对弱相关(或弱记忆)信源:只有相邻的少数几
个符号之间有统计相关性,相距较远的符号之间相关
性可以忽略。
把几个相邻的符号看作一个大符号
预测法
对强相关信号:
不能绝对预测后面的符号(否则只传前面几个符号就可完成通信)只能近似预测 差值 不需要传本身,只需要传预测值和实际值之差
DM调制原理:
用一个码元就可以来表达前一码元( )和当
前所传的码元之间的增量。
DPCM原理:
差分编码调制,用码多一些,效果(误差)比
DM调制要好一些。
概率的均匀化——最佳编码
代表性:Fano编码,Huffman编码
出现概率大的用较小的码元来编码,出现概率小的用较多的码元来编码,平均码长最短
香农编码
根据信源中各个消息的概率
直接计算出代码:\(n_i\)取不小于\(I(x_i)\)的最小整数.
香农编码方法简单,但不能保证得到的编码方案为最优方案。
霍夫曼编码
① 概率由大到小排序;
② 最小的概率分为一组,一个编0,另一个编1,求和后重排序;
③ 重复②步骤,直到全部处理完毕;
④ 从左到右,直到最右边,然后反序
由此得到最佳的二元非续长代码。
可以证明:Huffman编码是最佳码
不同的码元分配,得到的具体码字不同,但码长不变,平均码长也不变,所以没有本质区别;
在哈夫曼编码过程中,对缩减信源符号按概率由大到小的顺序重新排列时,应使合并后的新符号尽可能排在靠前的位置,这样可使合并后的新符号重复编码次数减少,使短码得到充分利用。
Fano编码
①重新排序:按概率大小
②分组:先分两组,概率和近可能接近
③继续分组:在步骤②的基础上
④标码:每组分别0码或1码。
游程编码RLC
游程:数字序列中连续出现相同符号的一段
二元序列的游程:只有“0”和“1”两种符号
连“0”这一段称为“0”游程,它的长度称为游程长度L(0)
连“1”这一段称为“1”游程,它的游程长度用L(1)表示
连续多次输出同样的消息
二值图像压缩
标识码
用交替出现的“0”游程和“1”游程长度表示任意二元序列,一一对应变换,可逆变换
将二元序列变换成了多元序列;这样就适合于用其他方法,如哈夫曼编码,进一步压缩信源,提高通信效率
算数编码
暂时略,占位以后再补