信息论|熵

信息量

获得信息量 = 不确定程度平均减少的量
例:八个串联灯泡其中一个故障
测量前信息量\(H(X) = log8 = 3\)

  1. 二分法测量
    第一次测量后确定四个
    \(H_2 = log4 = 2\)
    获得的信息量为 \(1bit\)
    第二次第三次测量同理,获得\(3bit\)信息量后不确定程度减少为\(0\)
  2. 每次测两个
    先量1、2,出现两种情况:
    1)1、2不通的情况:
    1,2 的熵为\(1bit\) 信息量\(2bit\)
    2)1、2通的情况:
    其余6个熵为\(log6 = 2.58\)
    信息量\(0.42bit\)
    获得的平均信息量:\(0.811bit\)
    测量后概率空间发生变化,表示了信息量的获得

离散信源的熵

事件符合二项分布时
\(\begin{bmatrix} X \\ P(x) \end{bmatrix}\)=\(\begin{bmatrix} x_1, & x_2 \\ p, & 1-p \end{bmatrix}\)
p = 0.5 时,\(H_{max} = 1\)
p = 0 or p = 1 时,必然事件 \(H = 0\)
英文信源 二十六个字母加空格
等概率输出时 \(H = log27 = 4.76\)
考虑英文字母的频率 \(H = 4.065\)

熵的性质

  1. 对称性
    \(H(p_1,p_2) = H(P_2,P_1)\)

  2. 非负性
    \(H(x) >= 0\)

  3. 确定性
    \(H(1) = 0\)

  4. 扩展性
    image

  5. 强可加性
    联合熵\(H(xy)\) = 无条件熵\(H(x)\) + 条件熵\(H(y/x)\)

  6. 递增性
    image

  7. 极值性
    image

  8. 上凸性
    image

联合熵

\(H(XY) = - \sum^n_1 \sum^m_1 p(x_iy_j)log p(x_iy_j)\)
性质 \(H(XY) <= H(X) + H(Y)\)
(算术平均 不小于 几何平均)
根据贝叶斯公式
image

对于独立信源 \(H(XY) = H(X) + H(Y)\)
对于同一信源,称为\(K\)次延长
\(H(X^K) <= KH(X)\)

条件熵

\(H(Y/X)\)
\(H(XY) = H(X) + H(Y/X)= H(Y) + H(X/Y)\)

剩余度

\(\eta = \frac{H(x)}{H_{max}(X)}\)
实际熵/最大熵
多余度 \(E= 1- \eta\)

交互熵

\(I(X;Y) = I(Y;X) = H(X) - H(Y/X)\)

连续信源的熵

信源输出时间和取值连续
可以用随机过程\({x(t)}\)表示

数字化的过程

抽样、量化、编码
根据奈奎斯特取样定理,以 \(f>2w\) 速率取样,样值能代表原信号
信号带宽为 w 信号持续时间长度为:T 样值点为:n=2wT
第i个区间的概率为
\(p_i = \int^{a + i\Delta} _{a + (i-1)\Delta} p(x)dx\)
\(H(X) = -\sum plogp\)
此后连续信源被量化为离散信源
取极限值得到连续信源的信息熵
计算时 \(log\Delta\) 是趋于无穷大的常数,避开此项
定义连续信源的熵:\(H(X) = -\int_R p(x) log p(x)dx\)
只要两者离散逼近时,所取的间隔一致,无限大项常数将互相抵消掉,不影响熵的差值
连续信源的熵是一个比无穷大大多少的相对量,离散信源的熵是绝对量

连续信源的熵的极值

对输出幅度(瞬时功率)受限的信源,其输出最大熵条件是输出在该范围内均匀分布,其输出最大熵为\(p(x)\)的倒数的对数。
平均功率受限条件下,具有正态分布的连续信源,熵最大,其大小随平均功率的增加而增加。
image

posted @ 2025-05-06 11:18  lumiere_cloud  阅读(41)  评论(0)    收藏  举报