6.HMM与CRF
HMM(隐含马尔科夫模型)
基于马尔可夫假设的统计模型,用于处理序列数据。核心思想是系统状态不可直接观测(隐含),但可通过观测序列推断。
- 输入:文本序列(如句子分词后的单词列表)。
- 输出:对应的隐含序列(如词性标注序列)。
- 示例:
观测序列:["人生","该","如何","起头"] → 隐含序列:["n","r","r","v"](名词、代词、代词、动词)。
HMM训练与预测
- 参数定义:
- 转移概率矩阵(A):隐含状态间的转移概率(如词性"n"后接"v"的概率)。
- 发射概率矩阵(B):隐含状态生成观测值的概率(如词性"n"生成单词"人生"的概率)。
- 初始概率(π):序列起始状态的分布。
- 训练:通过大量标注数据(观测序列+隐含序列)估计参数(A, B, π),最大化联合概率。训练中采用隐含假设:隐含序列中每个单元的可能性只与上一个单元有关。
- 预测:
- 使用维特比算法(动态规划)找到概率最大的隐含序列路径。
- 给定输入序列 (x₁, x₂, ..., xₙ),通过模型计算得到隐含序列的条件概率分布,再使用维特比算法找出概率最大的序列路径,即为输出的隐含序列 (y₁, y₂, ..., yₙ)。
- 使用维特比算法(动态规划)找到概率最大的隐含序列路径。
CRF(条件随机场)
判别式概率图模型,直接建模观测序列与隐含序列的条件概率关系,无马尔可夫假设限制。
- 输入/输出:与HMM相同,但模型结构和训练方式不同。
共同应用:
解决NLP中的序列标注问题,如分词、词性标注、命名实体识别(NER)。
核心任务:
给定观测序列,预测最可能的隐含标签序列。
HMM 与 CRF 模型的差异
HMM 和 CRF 的发展现状
- 传统优势:
HMM和CRF在2010年代前广泛用于序列任务,尤其在数据量较小、计算资源有限时表现良好。 - 当前趋势:
随着深度学习兴起,RNN、LSTM、Transformer等模型因其自动特征学习和更强的表达能力,逐渐取代传统方法。 - 遗留价值:
- HMM仍用于实时性要求高的场景(如语音识别初步处理)。
- CRF有时作为神经网络输出层的后处理(如BiLSTM-CRF模型)。
关键知识点总结
- HMM核心:
- 马尔可夫假设 + 概率图模型。
- 依赖局部概率,计算高效但表达能力有限。
- CRF核心:
- 全局特征建模 + 判别式训练。
- 需特征工程,准确率高但计算复杂。
- 选择依据:
- 数据量小、需快速部署 → HMM。
- 数据充足、追求精度 → CRF或深度学习模型。
通过对比可见,HMM和CRF虽逐渐被深度学习替代,但其理论价值(如概率图模型、序列解码方法)仍影响现代NLP模型设计。