机器学习中的线性代数之矩阵求导

转自https://blog.csdn.net/u010976453/article/details/54381248

前面针对机器学习中基础的线性代数知识，我们做了一个常用知识的梳理。接下来针对机器学习公式推导过程中经常用到的矩阵求导，我们做一个详细介绍。

矩阵求导（Matrix Derivative）也称作矩阵微分（Matrix Differential），在机器学习、图像处理、最优化等领域的公式推导中经常用到。

矩阵的微积分本质上是多元变量的微积分问题，只是应用在矩阵空间上而已

根据 $Y$

类型	标量（Scalar） $y$	向量（Vector） $y$	矩阵（Matrix） $Y$
Scalar $x$	$\frac{\partial y}{\partial x}$	$\frac{\partial y}{\partial x}$	$\frac{\partial Y}{\partial x}$
Vector $x$	$\frac{\partial y}{\partial x}$	$\frac{\partial y}{\partial x}$
Matrix $X$	$\frac{\partial y}{\partial X}$

下面我们根据分子的布局（即X的类型）来介绍矩阵的导数求解

0 布局约定（Layout conventions）

事实上，所有求导的法则都可以从最基本的求导规则推导出来。不知你有没发现，不同的文献中，同样的式子求导的结果有时候会不一样，仔细观察会发现刚好相差一个转置，于是我们得先说说求导的两个派别（布局）。

由向量关于向量的求导 $\frac{\partial y}{\partial x}$

布局（Layout）：在矩阵求导中有两种布局，分别为分母布局(denominator layout)和分子布局(numerator layout)。这两种不同布局的求导规则是不一样的。
向量 $y = [\begin{matrix} y_{1} \\ y_{2} \\ ⋮ \\ y_{n} \end{matrix}]$

在分子布局下，为：

\partial y \partial x = ⎡⎣⎢⎢⎢⎢⎢⎢⎢ \partial y 1 \partial x \partial y 2 \partial x ⋮

而在分母布局下，为：

\partial y \partial x = [ \partial y 1 \partial x \partial y 2 \partial x \dots

通过观察和推导我们可以知道，分子布局和分母布局之间刚好差一个转置，即在分子布局下与原来

Y

对于正切矩阵 $\frac{\partial y}{\partial x}$

1 关于标量的导数

对于 $X$

1.1 标量关于标量X的求导

这中情况就是我们平时的代数求导，直接就是 $\frac{\partial y}{\partial x}$

1.2 向量关于标量X的求导

向量 $y = [\begin{matrix} y_{1} \\ y_{2} \\ ⋮ \\ y_{n} \end{matrix}]$

\partial y \partial x = ⎡⎣⎢⎢⎢⎢⎢⎢⎢ \partial y 1 \partial x \partial y 2 \partial x ⋮

Y

1.3 矩阵关于标量X的求导

矩阵对标量的求导类似于向量关于标量的求导，也就是矩阵的每个元素分别对标量 $x$

\partial Y \partial x = ⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢ \partial y 11 \partial x \partial y 21 \partial x ⋮

2 关于向量的导数

2.1标量关于向量 $x$

标量 $y$

\partial y \partial x = [ \partial y \partial x 1 \partial y \partial x 2 \dots

Y

2.2 向量关于向量 $x$

向量函数（即函数组成的向量） $y = [\begin{matrix} y_{1} \\ y_{2} \\ ⋮ \\ y_{n} \end{matrix}]$

\partial y \partial x = ⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢ \partial y 1 \partial x 1 \partial y 2 \partial

Y

2.3 矩阵关于向量 $x$

矩阵 $Y = [\begin{matrix} y_{11} & y_{12} & \dots & y_{1 n} \\ y_{21} & y_{22} & \dots & y_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ y_{n 1} & y_{n 2} & \dots & y_{n n} \end{matrix}]$

\partial Y \partial x = ⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢ \partial y 11 \partial x 1 \partial y 21 \partial

3 关于矩阵的导数

我们一般只考虑标量关于矩阵的导数（因为矩阵对向量和矩阵的导数与前面2.3节的内容一致或相似），即标量 $y$

\partial y \partial X = ⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢ \partial y \partial x 11 \partial y \partial x 12 ⋮

4 维度分析

当我们对一些复杂的矩阵乘积求偏导的时候，直接求很难直接求出，这时候我们可以通过分析矩阵的维度来得到结果。例如:

考虑以下导数 $\frac{\partial A u}{\partial x}$

\partial A u \partial x = $ \partial u \partial x A ⊤ (9)

再考虑问题 $\frac{\partial x^{⊤} A x}{\partial x}$

\partial x ⊤ A x \partial x (10)

Y

\partial ( x ⊤ A ) y \partial x (11)

Y

\partial y \partial x \in R m \times n (12)

Y

\partial x ⊤ A \partial x = A \in R m \times n (13)

Y

\partial ( x ⊤ A ) y \partial x = \partial y \partial x A ⊤ x + A y (14)

Y

\partial x ⊤ A x \partial x = ( A ⊤ + A ) x (14)

通过以上两个示例的学习，我们可以知道在求解复杂矩阵的求导问题时，通过维度来判断矩阵的导数形式很简便同时也不容易出错。下图是机器学习中常见的矩阵求导形式，可供参考：

5 总结

在本文中，我们针对机器学习推导中的矩阵求导问题做了一个全面的分析，同时结合前文深度学习系列（二）——机器学习中的线性代数知识介绍的机器学习中线性代数的基础知识，我们对线性代数部分做了详细的了解。下一章我们介绍机器学习中涉及到的概率知识。

posted @ 2018-04-13 21:47 月夜_1 阅读(649) 评论(0) 收藏举报

刷新页面返回顶部