首先定义事件xi的信息量为其发生概率对数的负数,记为I(x_i),有: 

I(xi)=logp(xi)

信息熵H(X)即为随机变量X的平均信息量(期望)

 

 

联合熵

 

 

条件熵

 

熵的链式法则