自然梯度下降(Natural Gradient Descent)

引言

  自然梯度法与牛顿法一样,是二阶梯度优化算法。自然梯度法相比最速梯度下降法的优势(?)是在模型参数更新后,模型建模的概率分布与之前不会有太大变化。

背景知识

  流形$M$是局部欧几里得的Hausdorff空间。Hausdorff空间意味着对于任意两点,它们存在不相交的邻域(也就是说每个点都是相对独立的。)。局部欧几里得意味着对于空间中任一点,存在一个可以同胚于实$V\in \mathbb{R}^{n}$空间的邻域$U$,其中$n$为非负整数。另外,我们将映射$\varphi:U→V$称为chart,$U$称为domain。一个集合的charts称为altas,其中每个chart对应的domain为$U_{\alpha}$,$\bigcup_{\alpha \in N}U_{\alpha}=M$。

  定义了流形后,可以定义smooth流形。具体来说,对于$\varphi_{\alpha}$、$\varphi_{\beta}$两个chart,它们的domain$U_{\alpha}$、$U_{\beta}$存在相交的部分$U_{\alpha \beta}=U_{\alpha}\bigcap U_{\beta}$,$U_{\alpha \beta}$在两个chart下的像分别为$W_{\alpha \beta}$、$W_{\beta \alpha}$,这两个像之间的映射$\varphi_{\alpha \beta}=\varphi_{\alpha}\varphi_{\beta}^{-1}$称为transition map。一个流形是否为smooth流形取决于transition map是否smooth(也就是说通过选取的地图集对平面粘连的部分做限制。)。

  定义了smooth流形后就可以定义黎曼流形。黎曼流形是有黎曼度量的实smooth流形。其中黎曼度量是所有切空间内积的集合。统计模型中唯一不变的黎曼度量为Fisher信息。[1,2]

推导[2,3]  

  我们考虑密度函数族$D$,它将每个参数$\theta\in \mathbb{R}^{P}$映射为一个密度函数$p(z)$,其中$p:\mathbb{R}^{N}→[0, \infty)$。具体来说,每一个$\theta$都定义了一个密度函数$p_{\theta}(z)=D(\theta)(z)$。如果考虑所有的$\theta$,就得到整个密度函数族,这也是一个泛函流形

  在无穷小的情况下,KL散度表现的就像距离度量。因此$D$也是一个黎曼流形,它的黎曼度量为Fisher信息矩阵$F$,切空间的内积为

$<u,v>=uFv$。

  这也就定义了一个局部距离度量。在此黎曼空间下下使用最速下降法即为自然梯度法。具体来说,设$dw=\varepsilon a$,我们希望找到一个$a$最小化

$L(w+dw)=L(w)+\varepsilon \nabla L(w)^{T}a$,

其中

$|a|^{2}=aFa=1$。

使用拉格朗日乘子法就可解得

$a=\frac{1}{2\lambda}F^{-1}\nabla L(w)$。

其中$\lambda$为拉格朗日乘子。

  

 

 

 

参考文献

1. Amari, S. (1985). Differential geometrical methods in statistics. Lecture notes in statistics, 28.

2. Amari, S.-I. (1998). Natural gradient works efficiently in learning. Neural Comput., 10(2), 251–276.

3. Pascanu, R., & Bengio, Y. (2013). Revisiting Natural Gradient for Deep Networks. CoRR, abs/1301.3584.

posted @ 2020-03-01 22:13  graycastle  阅读(2162)  评论(0编辑  收藏  举报