统计自然语言处理-预备知识
---恢复内容开始---
统计自然语言处理-预备知识目录 统计自然语言处理-预备知识一、概率论1.1 期望和方差1.2 边缘概率密度二、信息论2.1 信息量2.2 熵2.3 互信息2.4 交叉熵2.5 相对熵(KL距离)2.6 联合熵2.7 条件熵
一、概率论
1.1 期望和方差
期望值是指随机变量所取值的概率平均。
方差是描述该随机变量的值偏离其期望值的程度。
1.2 边缘概率密度
如果二维随机变量的分布函数F{x,y}为已知,那么随机变量x,y的分布函数F𝗑{x}和Fʏ{y}可由F{x,y}求得。则F𝗑{x}和Fʏ{y}为分布函数F{x,y}的边缘分布函数。
边缘密度函数:file:///D:/Users/xyy/AppData/Local/Temp/1531878154759.png?lastModify=1531880939
二、信息论
2.1 信息量
信息量就是不确定度,越是不能判断未来有多少可能,信息度就越大。
2.2 熵
为了让信息可以量化,提出了信息熵的概念。熵就是信息量的集合。
例如我们讨论太阳从哪升起。本来就只有一个结果,我们早就知道,那么无论谁传递任何信息都是没有信息量的。当可能结果数量比较大时,我们得到的新信息才有潜力拥有大信息量。
香农是信息论的创始人,
热力学中,熵指分子运动的混乱度:越混乱,熵越大。
信息论中,熵指一个随机变量的不确定性的数量。(随机变量的值是确定的时候,熵为0)
香农总结出了信息熵的三条性质:
- 单调性,即发生概率越高的事件,其所携带的信息熵越低。极端案例就是“太阳从东方升起”,因为为确定事件,所以不携带任何信息量。从信息论的角度,认为这句话没有消除任何不确定性。
- 非负性,即信息熵不能为负。这个很好理解,因为负的信息,即你得知了某个信息后,却增加了不确定性是不合逻辑的。
- 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和。
事件 https://www.zhihu.com/equation?tex=X%3DA%2CY%3DB同时发生,两个事件相互独立 ,
https://www.zhihu.com/equation?tex=p(X%3DA%2CY%3DB)%3Dp(X%3DA)\cdot+p(Y%3DB)
那么信息熵 https://www.zhihu.com/equation?tex=H(A%2CB)%3DH(A)%2BH(B)
如果两个事件不相互独立,那么满足https://www.zhihu.com/equation?tex=H%28A%2CB%29%3DH%28A%29%2BH%28B%29-I%28A%2CB%29
,其中https://www.zhihu.com/equation?tex=I%28A%2CB%29 是互信息(mutual information),代表一个随机变量包含另一个随机变量信息量的度量。下面介绍互信息
2.3 互信息
比如一个点到点通信系统中,发送端信号为https://www.zhihu.com/equation?tex=X ,通过信道后,接收端接收到的信号为https://www.zhihu.com/equation?tex=Y ,那么信息通过信道传递的信息量就是互信息 https://www.zhihu.com/equation?tex=I(X%2CY) 。根据这个概念,香农推出了一个十分伟大的公式,香农公式,给出了临界通信传输速率的值,即信道容量:
https://www.zhihu.com/equation?tex=C%3DB\log(1%2B\frac{S}{N})
2.4 交叉熵
用来衡量估计模型与真实概率分布之间差异情况。模型的交叉熵越小,模型的表现越好。
file:///D:/Users/xyy/AppData/Local/Temp/1531836622197.png?lastModify=1531881088
2.5 相对熵(KL距离)
对两个事件的不相似性对量,相对熵越大,两个事件的差异越大。
file:///D:/Users/xyy/AppData/Local/Temp/1531836714257.png?lastModify=1531881095
2.6 联合熵
描述一对随机变量平均需要的信息量
file:///D:/Users/xyy/AppData/Local/Temp/1531877169879.png?lastModify=1531881100
2.7 条件熵
- X确定时,Y的不确定性度量
- 在X发生是前提下,Y发生新带来的熵。
file:///D:/Users/xyy/AppData/Local/Temp/1531877194598.png?lastModify=1531881104
---恢复内容结束---
浙公网安备 33010602011771号