机器学习-HMM隐马尔可夫模型-笔记

HMM定义

　　1）隐马尔科夫模型 (HMM, Hidden Markov Model) 可用标注问题，在语音识别、 NLP 、生物信息、模式识别等领域被实践证明是有效的算法。

　　2）HMM 是关于时序的概率模型，描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列，再由各个状态生成观测随机序列的过程。

　　3）隐马尔科夫模型随机生成的状态随机序列，称为状态序列；每个状态生成一个观测，由此产生的观测随机序列，称为观测序列。序列的每个位置可看做是一个时刻。

隐马尔科夫模型的贝叶斯网络

由于Z₁,Z₂,...,Z_n,都是未知的，x₁,x₂,...,x_n,存在一定的联系，即x₁与x₂不独立，x₁与Z₂不独立......

HMM的确定(一定要分清下面的类似条件的公式，有助于HMM的公式理解)

　　HMM 由初始概率分布 π向量、状态转移概率分布 A矩阵以及观测概率分布B矩阵确定。 π 和 A 决定状态序列， B 决定观测序列。因此， HMM 可以用三元符号表示，称为HMM的三要素：

　　　　　　　　λ=(A,B,π)

　　Q是所有可能的状态的集合,N是可能的状态数

　　　　　　　Q={q₁,q₂,...,q_n}

　　V是所有可能的观测的集合,M是可能的观测数

　　　　　　　V={v₁,v₂,...,v_m}

　　I是长度为T的状态序列，O是对应的观测序列

　　　I={i₁,i₂,...,i_T}　　　O={o₁,o₂,...,o_n}

　　A是状态转移概率矩阵

　　　　　　A=[a_ij]_N×N

　　其中a_ij=P(i_t+1=q_j| i_t=q_i), a_ij是在时刻t处于状态q_i的条件下时刻t+1转移到状态q_j的概率。

　　B是观测概率矩阵B=[b_ik]_N×M

　　其中,b_ik=P(o_t=v_k | i_t=q_i) , b_ik是在时刻t处于状态q_i的条件下生成观测v_k的概率。

　　π是初始状态概率向量：π=(π_i)

　　其中，π_i=P(i₁=q_i), π_i是时刻t=1处于状态q_i的概率。

HMM的两个基本性质(很任性的具有特点的性质，为后面的公式推导做支撑)

　　1）齐次假设：当前状态只和上一个状态有关系，用公式表示的话就是：

　　2）观测独立性假设：所有的观测之间是互相独立的，某个观测只和生成它的状态有关系，即：

　　此处性质若有疑问还请看看另一篇https://blog.csdn.net/xueyingxue001/article/details/52396494

HMM的3个基本问题

1) 概率计算问题：前向-后向算法—动态规划

　　给定模型 λ=(A,B,π)和观测序列O={o₁,o₂,...,o_T} ，计算模型 λ下观测序列O出现的概率P(O| λ)

2) 学习问题：Baum Welch 算法状态未知EM

　　已知观测序列O={o₁,o₂,...,o_T} ，估计模型 λ=(A,B,π)的参数，使得在该模型下观测序列 P(O| λ) 最大

3) 预测问题：Viterbi 算法—动态规划

　　解码问题：已知模型λ=(A,B,π) 和观测序列O={o₁,o₂,...,o_T} 求给定观测序列条件概率 P(I|O,λ)最大的状态序列 I

概率计算问题

1. 直接算法: 暴力算法，在实际问题中不适用，它的时间复杂度为O(TN^T)，复杂度过高。

　前向算法

　后向算法

1-1. 直接算法，尽管不适用但是有助于对前向算法和后向算法的理解。

　　按照概率公式，列举所有可能的长度为 T 的状态序列I={i₁,i₂,...,i_T}，求各个状态序列 I与观测序列O={o₁,o₂,...,o_T}的联合概率P(O,I | λ)，然后对所有可能的状态序列求和从而得到 P(O|λ)。

　　状态序列I={i₁,i₂,...,i_T}的概率是：

　　　　P(I|λ) = P(i₁,i₂, ..., i_T |λ)

=P(i₁ |λ)P(i₂, i₃, ..., i_T |λ)

=P(i₁ |λ)P(i₂ | i₁, λ)P(i₃, i₄, ..., i_T |λ)

=......

=P(i₁ |λ)P(i₂ | i₁, λ)P(i₃ | i₂, λ)...P(i_T | i_T-1, λ)

　　而上面的P(i₁ |λ) 是初始为状态i₁的概率，P(i₂ | i_1, λ) 是从状态i1转移到i2的概率，其他同理，于是分别使用初始概率分布π 和状态转移矩阵A，就得到结果：

　　对固定的状态序列I，观测序列O的概率是：

　　O和I同时出现的联合概率是：

　　对所有可能的状态序列I求和，得到观测序列O的概率P(O|λ)

　　分析：加和符号中有2T个因子，I 的遍历个数为 N^T，因此，时间复杂度为 O(TN^T)，复杂度过高。

1-2. 前向算法

α_t(i)=P(y₁,y₂,...,y_t,q_t=i|λ) β_t(i)=P(y_t+1,y_t+2,...,y_T|q_t=i,λ) （后向概率）

定义：给定 λ ，定义到时刻 t 部分观测序列为o₁,o₂…o_t 且状态为 q_i 的概率称为前向概率，记作：

α_t(i)=P(o₁,o₂…o_t,i_t=q_i|λ)，可以递推计算前向概率 α_t(i) 及观测序列概率P(O|λ).

　　初值：

　　第一个时刻状态为第i号状态的概率是π_i，在第i号状态时得到o₁这个观测的概率是b_io1，于是：

　　递推：对于t=1,2…T-1

　　时刻t+1的前向概率的 α_t+1(i) 的求法就是：t时刻的状态转移到t+1时刻的状态的概率对所有状态求和 * t时刻的状态得到观测的概率，换句话说就是：t时刻的前向概率对所有的状态求和 * t时刻的状态得到观测的概率。(多读两遍)

　　其中，α_t(j)a_ji为时刻t状态为j的概率×状态j转移到状态i的转移概率就是时刻t+1时状态为i的概率。

　　最终观测序列概率：

　　其实：P(O|λ)= α_T(1) +α_T(2) + ... + α_T(n),既然α_T(i) 可以表达出来，当然P(O|λ)就可以表达出来了。

　　举个例子具体是如何做的：

　　假设有 3 个盒子，编号为 1 、 2 、 3 ，每个盒子都装有红白两种颜色的小球，数目如下：

　　按照 π=(0.2,0.4,0.4) 的概率选择 1 个盒子，从盒子随机抽出1 个球，记录颜色后放回盒子；

　　考察盒子球模型，计算观测向量 O=“ 红白红”的出现概率。

　　初始概率分布π，状态转移概率分布A，观测概率分布B。

　　计算初值：第一时刻观测到红球概率的情况（初始状态）

　　递推（重点）：第二时刻观测到白球概率的情况与第三时刻观测到红球概率情况

　　最终：观测序列为“红白红”的概率为

　　相信看完例子会舒服一点，不过我的例子写的也不算是详细，有兴趣可以看一下此博客https://blog.csdn.net/xueyingxue001/article/details/52396494

1-3. 后向算法

　　有了前向算法的基础，后向算法就好说了，因为就是前向算法的反过来：先计算最后一个然后推到第一个，于是详细说明就不在给了，直接上结论：

　　定义：给定 λ ，定义到时刻 t 状态为q_i的前提下，从 t+1 到 T 的部分观测序列为 o_t+1,o_t+2,…,o_T的概率为后向概率，记做：

　　可以递推计算后向概率 β_t(i)及观测序列概率P(O|λ)

　　初值：β_T(i) = 1

　　　　概率为1的原因是 -- 本来还需要看看时刻T后面有什么东西，但因为最后一个时刻T 后面已经没有时刻，即不需要再观测某个东西，所以随便给个什么都行。

　　递推: 对于t=T-1,T-2…,1

　　最终：

　　后向算法的说明:

　　　　为了计算在时刻 t 状态为 q_i 条件下时刻 t+1 之后的观测序列为o_t+1,o_t+2 …o_T 的后向概率β_t(i),只需要考虑在时刻 t+1 所有可能的 N 个状态 q_j的转移概率 (a_ij项 ))，以及在此状态下的观测o_t+1的观测概率
( 项 ) ，然后考虑状态q_j之后的观测序列的后向概率 β_t+1(j)

根据前向概率后向概率定义

　　α_t(i)=P(y₁,y₂,...,y_t,q_t=i|λ)

　　β_t(i)=P(y_t+1,y_t+2,...,y_T|q_t=i,λ)

单个状态的概率

求给定模型λ和观测O，在时刻t处于状态qi的概率。记：

　　这个的确是求隐状态序列的一种方式，但这种有个问题 -- 求出的隐状态之间互相独立，即：没有考虑到第t+1时刻的隐状态是由第t时刻的隐状态转移过来的情况。换言之：这样求得的隐状态是“每个隐状态都是仅在当前时刻最优，每个隐状态都没考虑到全局情况”。

单个状态的概率：

γ的意义

　　在每个时刻 t 选择在该时刻最有可能出现的状态 i_t^*，从而得到一个状态序列 I^*={i₁^* i₂^*… i_T^*}，将它作为预测的结果。

两个状态的联合概率

　　刚才“单个状态的概率”求得的t时刻的隐状态没有考虑到“上下文”，那就考虑下上下文，即：时刻t位于隐状态i时，t+1时刻位于隐状态j

　　求给定模型 λ 和观测 O ，在时刻 t 处于状态 q_i 并且时刻 t+1 处于状态 q_j 的概率。

期望：

在观测O下状态i出现的期望：

在观测O下状态i转移到状态j的期望：

2. 学习算法

　　1）若训练数据包括观测序列和状态序列，则HMM 的学习非常简单，是监督学习；

　　　　大数定理

　　　　　　假设已给定训练数据包含 S 个长度相同的观测序列和对应的状态序列
{(O₁,I₁), (O₂,I₂)…(O_s ,I_s)}，那么，可以直接利用 Bernoulli 大数定理的结论“频率的极限是概率”，给出HMM 的参数估计。

　　　　监督学习方法

　　　　当然若是从实例出发，可以考虑一篇文档的分词，文档的词汇量可以用大数定律来解决，我们可以把每个句子看作是一个小单元，每个单元中，有初始字，终止字，中间字，单个字之分，剩下的就可以看一下https://blog.csdn.net/xueyingxue001/article/details/52396494关于这部分的举例，当然它只将词分为终止字与非终止字。

　　2) 若训练数据只有观测序列，则 HMM 的学习需要使用 EM 算法，是非监督学习。

　　　　Baum-Welch 算法

　　　　所有观测数据写成O=(o₁,o₂…o_T)，所有隐数据写成I=(i₁,i₂…i_T)，完全数据是(O,I)=(o₁,o₂…o_T ,i₁,i₂…i_T)，完全数据的对数似然函数是lnP(O,I|λ)。