KL散度、交叉熵与极大似然的友谊

一. 信息论背景

　　信息论的研究内容，是对一个信号包含信息的多少进行量化。所采用的量化指标最好满足两个条件：

（1）越不可能发生的事件包含的信息量越大；

（2）独立事件有增量的信息（就是几个独立事件同时发生的信息量等于每一个信息量的和）。

遵循以上原则，定义一个事件$\mathsf{x}=x$的自信息为：$$I(x)=-\log p(x)$$log底为e时，单位为nats；底为2时，单位为比特或香农。

　　用香农熵（Shannon Entropy）对一个变量在整个概率分布中的不确定性进行量化：$$H(\mathsf{x})=E_{\mathsf{x} \sim P}[I(x)]=-E_{\mathsf{x}\sim P}[\log P(x)]$$香农熵的意义，就是满足$p$分布的事件所产生的期望信息总量。

二. KL散度（Kullback-Leibler Divergence）

　　若一个随机变量$\mathsf{x}$有两种可能的分布$P(\mathsf{x})$和$Q(\mathsf{x})$，则可以用KL散度衡量两个分布之间的差异：$$\begin{align*} D_{KL}(P||Q)&=E_{\mathsf{x}\sim P}\left[ \log \frac{P(x)}{Q(x)}\right]\\&=E_{\mathsf{x}\sim P} \left[ \log P(x)-\log Q(x)\right]\end{align*}$$　　KL散度为非负，当且仅当P与Q为相同分布时，KL散度为零。所以假设有一个分布$p(x)$，想用另一个分布$q(x)$近似，可以选择最小化二者之间的KL散度。

　　但是需注意$D_{KL}(p||q)\neq D_{KL}(q||p)$，前者表示选择一个q，使得它在p具有高概率的地方具有高概率；后者表示选择一个q，使得它在具有低概率的地方具有低概率。

三. 交叉熵（Cross-Entropy）

　　交叉熵定义为：

$$\begin{align*}H(P,Q)&=H(P)+D_{KL}(P||Q) \\&=-E_{\mathsf{x}\sim P}\log Q(x)\end{align*}$$

针对Q最小化交叉熵等价于最小化KL散度，因为$H(P)$与Q无关。

四. 极大似然估计

　　假设有m个样本的数据集，由未知的真实数据分布$p_{data}(x)$独立生成。令$ p_{model}(x;\theta) $为由$ \theta $确定的概率分布，$ p_{model}(x;\theta) $将任意输入$x$映射到实数来估计真实概率 $p_{data}(x)$。

　　也就是说，给定一个$\theta$，就得到了一个完整的数据概率分布，我们就可以计算the probability of observing out sample data，即sample likelihood $L(\theta)$。如果一组$\theta$计算出来的sample likelihood太低，则需要换一组$\theta$。极大似然估计就是要选择一组$\theta$使得sample likelihood越高越好。

$$ \begin{align*}\theta_{ML}&=\mathop{\arg\min}_{\theta}p_{model}(x;\theta) \\&=\mathop{\arg\min}_{\theta} \prod_{i=1}^{m}p_{model}(x^{(j)};\theta)\end{align*} $$

多个概率的乘积可能导致数值下溢，所以通常会采用对数转换成求和的形式：

$$ \begin{equation}\theta_{ML}=\mathop{\arg\min}_{\theta}\sum_{i=1}^m \log p_{model}(x^{(i)};\theta)\end{equation} $$

五. MLE-->KL-->CE

　　由于$$E_{\mathsf{x}\sim p_{data}}[\log p_{model}(x)]=\sum_{i=1}^{m}p_{data}\cdot \log p_{model}(x;\theta)$$极大似然估计可以经过缩放，用与训练数据经验分布$p_{data}$相关的期望来表示：$$\begin{equation}
\theta_{ML}=\mathop{\arg\min}_{\theta}E_{\mathsf{x}\sim p_{data}} \log p_{model}(x^{(i)};\theta)
\end{equation}$$　　极大似然估计可以看作最小化训练集熵的经验分布$p_{data}$和模型分布之间的差异，即二者之间的KL散度：$$D_{KL}(p_{data}||p_{model})=E_{\mathsf{x}\sim p_{data}}\left[ \log p_{data}-\log p_{model}(x) \right]$$而最小化KL散度又等价于最小化分布之间的交叉熵$$-E_{\mathsf{x}\sim p_{data}}[\log p_{model}(x)]$$

posted @ 2017-10-29 16:07 jenny1000000 阅读(4875) 评论(0) 收藏举报

刷新页面返回顶部

jenny1000000

KL散度、交叉熵与极大似然 的友谊