信息论|熵

信息量

获得信息量 = 不确定程度平均减少的量
例：八个串联灯泡其中一个故障
测量前信息量\(H(X) = log8 = 3\)

二分法测量
第一次测量后确定四个
\(H_2 = log4 = 2\)
获得的信息量为 \(1bit\)
第二次第三次测量同理，获得\(3bit\)信息量后不确定程度减少为\(0\)
每次测两个
先量1、2，出现两种情况：
1）1、2不通的情况：
1,2 的熵为\(1bit\) 信息量\(2bit\)
2）1、2通的情况：
其余6个熵为\(log6 = 2.58\)
信息量\(0.42bit\)
获得的平均信息量：\(0.811bit\)
测量后概率空间发生变化，表示了信息量的获得

离散信源的熵

事件符合二项分布时
\(\begin{bmatrix} X \\ P(x) \end{bmatrix}\)=\(\begin{bmatrix} x_1, & x_2 \\ p, & 1-p \end{bmatrix}\)
p = 0.5 时，\(H_{max} = 1\)
p = 0 or p = 1 时，必然事件 \(H = 0\)
英文信源二十六个字母加空格
等概率输出时 \(H = log27 = 4.76\)
考虑英文字母的频率 \(H = 4.065\)

熵的性质

对称性
\(H(p_1,p_2) = H(P_2,P_1)\)
非负性
\(H(x) >= 0\)
确定性
\(H(1) = 0\)
扩展性
强可加性
联合熵\(H(xy)\) = 无条件熵\(H(x)\) + 条件熵\(H(y/x)\)
递增性
极值性
上凸性

联合熵

\(H(XY) = - \sum^n_1 \sum^m_1 p(x_iy_j)log p(x_iy_j)\)
性质 \(H(XY) <= H(X) + H(Y)\)
(算术平均不小于几何平均)
根据贝叶斯公式

对于独立信源 \(H(XY) = H(X) + H(Y)\)
对于同一信源，称为\(K\)次延长
\(H(X^K) <= KH(X)\)

条件熵

\(H(Y/X)\)
\(H(XY) = H(X) + H(Y/X)= H(Y) + H(X/Y)\)

剩余度

\(\eta = \frac{H(x)}{H_{max}(X)}\)
实际熵/最大熵
多余度 \(E= 1- \eta\)

交互熵

\(I(X;Y) = I(Y;X) = H(X) - H(Y/X)\)

连续信源的熵

信源输出时间和取值连续
可以用随机过程\({x(t)}\)表示

数字化的过程

抽样、量化、编码
根据奈奎斯特取样定理，以 \(f>2w\) 速率取样，样值能代表原信号
信号带宽为 w 信号持续时间长度为：T 样值点为：n=2wT
第i个区间的概率为
\(p_i = \int^{a + i\Delta} _{a + (i-1)\Delta} p(x)dx\)
\(H(X) = -\sum plogp\)
此后连续信源被量化为离散信源
取极限值得到连续信源的信息熵
计算时 \(log\Delta\) 是趋于无穷大的常数，避开此项
定义连续信源的熵：\(H(X) = -\int_R p(x) log p(x)dx\)
只要两者离散逼近时,所取的间隔一致，无限大项常数将互相抵消掉,不影响熵的差值
连续信源的熵是一个比无穷大大多少的相对量，离散信源的熵是绝对量

连续信源的熵的极值

对输出幅度（瞬时功率）受限的信源，其输出最大熵条件是输出在该范围内均匀分布，其输出最大熵为\(p(x)\)的倒数的对数。
平均功率受限条件下，具有正态分布的连续信源，熵最大，其大小随平均功率的增加而增加。

posted @ 2025-05-06 11:18 lumiere_cloud 阅读(41) 评论(0) 收藏举报

刷新页面返回顶部

luminescence