读《统计自然语言处理》有笔记——预备知识

1、  概率论基本概念-概率;

2、  概率论基本概念-最大似然估计;

3、  概率论基本概念-条件概率(概率的乘法规则)

4、  概率论基本概念-贝叶斯法则(全概率公式)

例题:

一个多义词某一义项被使用的概率为1/100 000

现有一程序判断该词在某个句子中是否使用了该义项。

如果句子中使用了该义项,程序判为“使用”的概率为0.95

如果句子中没使用该义项,程序判为“使用”的概率为0.005

问:该程序判断句子使用该词的这一义项的结论是正确的概率是多大?

设G:句子中使用该词的这一义项,T:程序判断句子使用该词的这一义项

P(G) = 1/100 0000 = 0.000 01

P(G’) = 1-P(G) = 0.999 99

P(T|G) = 0.95

P(T|G’) = 0.005

于是可得:

P(G|T) = [P(T|G)P(G)]/[P(T|G)P(G)+P(T|G’)P(G’)]≈0.002

5、  概率论基本概念-随机变量

6、  概率论基本概念-二项式分布B(n,p)

在NLP中,一般以句子为处理单位,为了简化问题的复杂性,通常假设一个句子的出现独立于它前面的其他语句,句子的概率分布近似地被认为符合二项式分布。

7、  概率论基本概念-联合概率分布和条件概率分布【看课本去】

8、  概率论基本概念-贝叶斯决策理论(统计方法处理模式分类问题的基本理论之一)

先验概率、后验概率

9、  概率论基本概念-期望和方差

期望值指随机变量所取值的概率平均。

例题:

某个网页主菜单上有6个关键词,每个关键词被点击的概率一样,过一段时间后,这6个关键词分别被点击1,2,…,6次。

那么,平均每个关键词被点击次数的期望值就是:

E(N) = SUM(t)*p(w) = (1+2+3…+6)*1/6 = 7/2

其中t为关键词被点击次数,p为关键词被点击概率;

一个随机变量的方差描述的是该随机变量的值偏离其期望值的程度。如果X为一随机变量,那么,其方差var(X)为:

var(X) = E((X-E(X))2) = E(X2) – E2(X)

X的标准差就是sqrt(var(X))

10、信息论基本概念-熵(entropy)

熵又称为自信息(self-information),可以视为描述一个随机变量的不确定性的数量。它表示信源X每发一个符号所提供的平均信息量。一个随机变量的熵越大,它的不确定性越大,那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。

例如:假设a、b、c、d、e、f这6个字符在某一简单语言中随机出现,每个字符出现的概率是:1/8,1/4,1/8,1/4,1/8,1/8。那么,每个字符的熵为:

H(P) = -SUM(P(x)*logP(x))

 = -[4*1/8*log(1/8) + 2*1/4*log(1/4)]

 = 5/2 bit

这个结果表明,我们可以设计一种编码,传输一个字符平均只需要2.5个bit

字符:a    b    c    d    e    f

编码:100  00  101  01   110  111

11、信息论基本概念-联合熵和条件熵

       联合熵:描述一对随机变量平均所需要的信息量;

即:H(X,Y) = -SUM(p(x,y)*log(p(x,y)))

12、信息论基本概念-互信息

       互信息是一个均衡非负的信息测度,I(X;Y)反映的是在知道了Y的值以后X的不确定性的减少量。可以理解为Y的值透露了多少关于X的信息量。

13、信息论基本概念-相对熵

       相对熵又称KL差异、KL距离,是衡量相同事件空间中两个概率分布相对差距的测度。

14、信息论基本概念-交叉熵

       交叉熵就是衡量估计模型与真实概率分布之间的差异情况。

15、信息论基本概念-困惑度

       在设计语言模型时,我们通常用困惑度来代替交叉熵衡量语言模型的好坏。

       语言模型设计的任务就是寻找困惑度最小的模型,使其最接近真实语言的情况。

16、信息论基本概念-噪声信道模型

17、支持向量机-线性分类

18、支持向量机-线性不可分

19、支持向量机-构造核函数

posted @ 2012-10-22 09:09  ZH奶酪  阅读(1131)  评论(0编辑  收藏  举报