21/8/20 读书笔记 概率图模型

21/8/20 读书笔记

机器学习 概率图模型

当我们谈到生成式模型和判别式模型时,对目标变量集合\(Y\)​​、可观测变量集合\(O\)​​、其他变量集合\(R\)​,​我们总是由联合概率分布\(P(Y,R,O)\)​或者条件概率分布\(P(Y,R|O)\)​来计算条件概率分布\(P(Y|O)\)​,这个过程称之为推断

直接利用概率求和的方式来进行上述的推断的复杂度很高,而且属性变量间往往存在着复杂的联系,同时我们需要注意到变量间的联系有助于我们降低推断推断的复杂度,因此我们需要一个简洁紧凑表达出变量间关系的工具,概率图模型就是这样一个工具。

概率图模型利用图的方式表达变量相关关系,根据边的性质大致分为有向无环图和无向图,前者称就是贝叶斯网,后者称为马尔科夫网

隐马尔科夫模型(Hidden Markov Model, HMM)是一种动态贝叶斯网,其在之前介绍的(静态)贝叶斯网络上加入了状态变量,并将状态变量作为不可观测的隐变量。HMM中的变量分为可观测变量和隐变量,分别构成了观测序列和状态序列。在任意时刻,观测变量取值完全依赖于隐变量(状态变量),并且该时刻的状态仅取决于上一时刻的状态。HMM通过状态转移概率、输出观察概率、初始状态概率三个参数来决定,并能够解决三个基本问题:

  • 给定HMM模型,计算某个特定观测序列的概率。
  • 给定HMM模型和观测序列,计算观测序列最匹配的状态序列。
  • 给定观测序列,计算出一个HMM模型使得该观测序列出现概率最大。

马尔科夫随机场(Markov Random Field, MRF)是一种马尔科夫网,每个结点对应一个变量,每条边对应变量间依赖关系。MRF中我们将一个变量子集对应的结点子集\(Q\)称为一个,当且仅当其中所有的变量都相互依赖。MRF引入势函数的概念,这是一个定义在变量子集上的非负实函数\(\psi_Q(·)\),刻画了该变量子集(团)Q中变量之间的相关关系,并且当偏好这些变量具有特定关系时具有较大取值。比如对于变量\(x_1\)\(x_2\),如果我们认为\(x_1\)\(x_2\)具有正相关性,偏好\(x_1\)\(x_2\)尽可能具有相同取值,那么势函数在\(x_1=x_2\)时取值最大。MRF通过分解团来求得多个变量间的联合概率分布。

当结点集合A中的结点到达结点集合B中的结点必须经过结点集合C中的结点,那么称C是A和B的分离集。对于一个MRF,其具有全局马尔科夫性,即给定两个变量子集的分离集取值时,这两个变量子集相互独立,这构成了MRF中的条件独立性来源。这很好理解,相当于切断了两个变量集合间的关联渠道。

条件随机场(Conditional Random Field, CRF)是一种判别式的马尔科夫网,试图在给定多个变量的观测值后对条件概率进行建模。其利用与MRF基于势函数和团来定义联合概率相似的方式来定义条件概率。CRF还引入了特征函数来描述观测序列对标记变量的影响以及标记变量之间的相关关系。

在处理生成式的概率图模型时,我们需要对联合分布中其他无关变量进行积分求和来得到目标变量的分布,这一过程称为边际化,最终得到的结果称为对目标变量的边际分布。同时,对于概率图模型还需要确定具体分布的参数,这一过程称为参数学习。如果我们将参数本身视作待推导的变量,那么实际上参数学习过程可以融合到我们的推断过程中。因此,在这种视角下,我们唯一的问题就是如何进行概率图的推断。

推断分为精确推断和近似推断,精确推断视图计算出目标变量的边际分布或条件分布的具体值。这一类算法的计算复杂度会随着规模的增长呈指数级上升。近似推断则试图在较短的复杂度下获得近似解,更为常用。

精确推断通常利用概率图模型中描述的变量的条件独立性来削减计算量,实质是一种动态规划算法,将涉及全局的概率计算通过条件独立性的分析限制在具有关联性的局部进行。书中介绍了变量消去和信念传播算法。

近似推断的方式一种是通过随机化方法采样完成近似,另一种是通过使用确定性近似来完成近似推断。书中就这两种方式介绍了MCMC采样和变分推断。

posted @ 2021-08-20 09:52  neumy  阅读(149)  评论(0)    收藏  举报