读《统计自然语言处理》有笔记——预备知识

1、概率论基本概念-概率；

2、概率论基本概念-最大似然估计；

3、概率论基本概念-条件概率（概率的乘法规则）

4、概率论基本概念-贝叶斯法则（全概率公式）

例题：

一个多义词某一义项被使用的概率为1/100 000。

现有一程序判断该词在某个句子中是否使用了该义项。

如果句子中使用了该义项，程序判为“使用”的概率为0.95。

如果句子中没使用该义项，程序判为“使用”的概率为0.005。

问：该程序判断句子使用该词的这一义项的结论是正确的概率是多大？

设G：句子中使用该词的这一义项，T：程序判断句子使用该词的这一义项

P(G) = 1/100 0000 = 0.000 01

P(G’) = 1-P(G) = 0.999 99

P(T|G) = 0.95

P(T|G’) = 0.005

于是可得：

P(G|T) = [P(T|G)P(G)]/[P(T|G)P(G)+P(T|G’)P(G’)]≈0.002

5、概率论基本概念-随机变量

6、概率论基本概念-二项式分布B(n,p)

在NLP中，一般以句子为处理单位，为了简化问题的复杂性，通常假设一个句子的出现独立于它前面的其他语句，句子的概率分布近似地被认为符合二项式分布。

7、概率论基本概念-联合概率分布和条件概率分布【看课本去】

8、概率论基本概念-贝叶斯决策理论（统计方法处理模式分类问题的基本理论之一）

先验概率、后验概率

9、概率论基本概念-期望和方差

期望值指随机变量所取值的概率平均。

例题：

某个网页主菜单上有6个关键词，每个关键词被点击的概率一样，过一段时间后，这6个关键词分别被点击1，2，…，6次。

那么，平均每个关键词被点击次数的期望值就是：

E(N) = SUM(t)*p(w) = (1+2+3…+6)*1/6 = 7/2

其中t为关键词被点击次数，p为关键词被点击概率；

一个随机变量的方差描述的是该随机变量的值偏离其期望值的程度。如果X为一随机变量，那么，其方差var(X)为：

var(X) = E((X-E(X))²) = E(X²) – E²(X)

X的标准差就是sqrt(var(X))

10、信息论基本概念-熵（entropy）

熵又称为自信息（self-information），可以视为描述一个随机变量的不确定性的数量。它表示信源X每发一个符号所提供的平均信息量。一个随机变量的熵越大，它的不确定性越大，那么，正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。

例如：假设a、b、c、d、e、f这6个字符在某一简单语言中随机出现，每个字符出现的概率是：1/8,1/4,1/8,1/4,1/8,1/8。那么，每个字符的熵为：

H(P) = -SUM(P(x)*logP(x))

= -[4*1/8*log(1/8) + 2*1/4*log(1/4)]

= 5/2 bit

这个结果表明，我们可以设计一种编码，传输一个字符平均只需要2.5个bit：

字符：a b c d e f

编码：100 00 101 01 110 111

11、信息论基本概念-联合熵和条件熵

联合熵：描述一对随机变量平均所需要的信息量；

即：H(X,Y) = -SUM(p(x,y)*log(p(x,y)))

12、信息论基本概念-互信息

互信息是一个均衡非负的信息测度，I(X;Y)反映的是在知道了Y的值以后X的不确定性的减少量。可以理解为Y的值透露了多少关于X的信息量。

13、信息论基本概念-相对熵

相对熵又称KL差异、KL距离，是衡量相同事件空间中两个概率分布相对差距的测度。

14、信息论基本概念-交叉熵

交叉熵就是衡量估计模型与真实概率分布之间的差异情况。

15、信息论基本概念-困惑度

在设计语言模型时，我们通常用困惑度来代替交叉熵衡量语言模型的好坏。

语言模型设计的任务就是寻找困惑度最小的模型，使其最接近真实语言的情况。

16、信息论基本概念-噪声信道模型

17、支持向量机-线性分类

18、支持向量机-线性不可分

19、支持向量机-构造核函数

posted @ 2012-10-22 09:09 ZH奶酪阅读(1131) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

ZH奶酪(张贺)

人生犹如“迷宫”，每个人都在其中寻找各自的“奶酪”——稳定的工作、身心的健康、和谐的人际关系、甜蜜美满的爱情，或是令人充满想象的财富……

读《统计自然语言处理》有笔记——预备知识