【中文分词】最大熵马尔可夫模型MEMM

Xue & Shen '2003 [2]用两种序列标注模型——MEMM (Maximum Entropy Markov Model)与CRF (Conditional Random Field)——用于中文分词；看原论文感觉作者更像用的是MaxEnt (Maximum Entropy) 模型而非MEMM。MEMM是由McCallum et al. '2000 [1]提出MEMM，针对于HMM的两个痛点：一是其为生成模型（generative model），二是不能使用更加复杂的feature。

1. 前言

HMM

• 有向图模型或贝叶斯网（Bayesian network），使用有向图表示变量间的依赖关系；
• 无向图模型或马尔可夫网（Markov network），使用无向图表示变量间相关关系。

Y = f(X)
\label{eq:deci}

\arg \mathop{max}\limits_{Y} P(Y|X)
\label{eq:cond}

$P(S,O) = \prod_{t=1}^{n}P(s_t|s_{t-1})P(o_t|s_t)$

$\delta_t(s) = \max P(s_1^{t-1}, o_1^{t}, s_t=s)$

\begin{aligned} \delta_{t+1}(s) & = \max P(s_1^{t}, o_1^{t+1}, s_{t+1}=s) \\ & = \max_{s'} P(s_1^{t-1}, o_1^{t}, s_t=s') P(s_{t+1}|s_t) P(o_{t+1}|s_{t+1}) \\ & = \max_{s'} [\delta_t(s') P(s|s')] P(o_{t+1}|s) \end{aligned}

最大熵模型

P_w(y|x) = \frac{exp \left( \sum_i w_i f_i(x,y) \right)}{Z_w(x)}
\label{eq:me-model}

2. MEMM

MEMM并没有像HMM通过联合概率建模，而是直接学习条件概率

P(s_t|s_{t-1},o_t)
\label{eq:memm-cond}

P(s|s',o) = \frac{ exp \left( \sum_a \lambda_a f_a(o,s) \right)}{ Z(o,s')}
\label{eq:memm-model}

$\delta_{t+1}(s) = \max_{s'} \delta_t(s') P(s|s', o_{t+1})$

• 无论观测值，State 1 总是更倾向于转移到State 2；
• 无论观测值，State 2 总是更倾向于转移到State 2.

3. 参考资料

[1] McCallum, Andrew, Dayne Freitag, and Fernando CN Pereira. "Maximum Entropy Markov Models for Information Extraction and Segmentation." Icml. Vol. 17. 2000.
[2] Xue, Nianwen, and Libin Shen. "Chinese word segmentation as LMR tagging." Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17. Association for Computational Linguistics, 2003.
[3] Lafferty, John, Andrew McCallum, and Fernando Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." Proceedings of the eighteenth international conference on machine learning, ICML. Vol. 1. 2001.
[4] 李航,《统计学习方法》.
[5] 周志华,《机器学习》.
[6] Nikos Karampatziakis, Maximum Entropy Markov Models.
[7] Ramesh Nallapati, Conditional Random Fields.

posted @ 2016-12-20 11:17 Treant 阅读(...) 评论(...) 编辑 收藏