矩阵微分(Matrix Differential)也称矩阵求导(Matrix Derivative)，在机器学习、图像处理、最优化等领域的公式推导过程中经常用到。本文将对各种形式下的矩阵微分进行详细的推导。

1. 符号说明

d(y)/d(x) 是一个列向量，其中的元素 (i) 为 d(y_i)/d(x)
d(y)/d(x) 是一个列向量，其中的元素 (i) 为 d(y)/d(x_i)
d(y^T)/d(x) 是一个矩阵，其中的元素 (i,j) 为 d(y_j)/d(x_i)
d(Y)/d(x) 是一个矩阵，其中的元素 (i,j) 为 d(Y_i,j)/d(x)
d(y)/d(X) 是一个矩阵，其中的元素 (i,j) 为 d(y)/d(X_i,j)

接下来的微分计算中，假定A, B, C是常矩阵与X无关，Y, Z与X相关。

2. 一次函数的微分(Linear Products)

首先介绍一个重要的性质（类似于函数的求导）: d(YZ)/d(x)=Y*d(Z)/d(x)+d(Y)/d(x)*Z，注意到分母中的x是标量(Scalar)。在微分中分母是向量的情况下，个人经验是：若d(行向量)/d(列向量)或者d(列向量)/d(行向量)，则也适合这个公式，如下面的前两个公式。

d(x^TA)/d(x) = A
推导过程：d(x^TA)/d(x) = A*d(x^T)/d(x)+x^T*d(A)/d(x) = A*I+0 = A。若A为向量a也适用。
d(Ax)/d(x^T) = A 推导过程：d(Ax)/d(x^T) = [d(x^TA^T)/d(x)]^T = (A^T)^T = A。
d(a^TXb)/d(X) = ab^T首先求出a^TXb = a^TX_:,1b₁ + a^TX_:,2b₂ + ... + a^TX_:,nb_n，这是一个实数，所以对应的X_i,j的系数构成的矩阵就为微分结果，易得ab^T。若a, b为矩阵A, B公式也适用。
d(a^TX^Tb)/d(X) = ba^T计算过程同上，若a, b为矩阵A, B公式也适用。

注意，有些书上有这些公式：d(xA)/d(x)=A; d(Ax)/d(x)=A^T。考虑到x为列向量，则Ax也为列向量，列向量对列向量的求导按照《矩阵论》中的公式，结果会是一个列向量而不是公式中的A^T。这些特殊的情况就让数学家去钻研吧，应用研究很少遇到。

3. 二次函数的微分(Quadratic Products)

下面的讨论主要针对分子为二次的情况，分母还是向量或者矩阵。分母为高阶的情况较少，典型的例子有Hessian矩阵，在文章最后会介绍。

d(x^TAx)/d(x) = (A+A^T)x在SVM求对偶的过程中有这一步求导。用展开的方式可以很快求得。若A为对称阵，则d(x^TAx)/d(x) = 2Ax。
d[(Ax+b)^TC(Dx+e)]/d(x) = A^TC(Dx+e) + D^TC^T(Ax+b) 这是该形式最为通用的公式。
d(a^TX^TXb)/d(X) = X(ab^T + ba^T)
- 特殊情况：d(a^TX^TXa)/d(X) = 2Xaa^T
d(a^TX^TCXb)/d(X) = C^TXab^T + CXba^T
- d(a^TX^TCXa)/d(X) = (C + C^T)Xaa^T
- d(a^TX^TCXa)/d(X) = 2CXaa^T，若C对称。
d[(Xa+b)^TC(Xa+b)]/d(X) = (C+C^T)(Xa+b)a^T

4. 矩阵的迹的微分(Trace)

在矩阵的迹tr()中的矩阵必须为方阵。设有N阶矩阵A，那么矩阵的迹tr(A)就等于A的特征值的总和，也为A矩阵的主对角线元素的总和，tr(AB)=tr(BA)。

d(tr(X))/d(X) = I
d(tr(X^k))/d(X) =^k(X^k-1)^T
d[tr(A^TXB^T)]/d(X) = d[tr(BX^TA)]/d(X) = AB
- d[tr(XA^T)]/d(X) = d[tr(A^TX)]/d(X) =d[tr(X^TA)]/d(X) = d[tr(AX^T)]/d(X) = A
d[tr(AXBX^T)]/d(X) = A^TXB^T + AXB
- d[tr(XAX^T)]/d(X) = X(A+A^T)
- d[tr(X^TAX)]/d(X) = X^T(A+A^T)
- d[tr(AX^TX)]/d(X) = (A+A^T)X
d[tr(AXBX)]/d(X) = A^TX^TB^T + B^TX^TA^T

5. 雅可比矩阵(Jacobian)

雅可比矩阵也可以看做是向量对向量的求导而得到的，如果y=f(x)，则对应的雅可比矩阵J=d(y)/d(x^T)。

$Jacobian$

6. 海森矩阵(Hessian matrix)

如果y=f(x)，则d[d(f)/d(x)]/d(x)是海森矩阵。在最优化中海森矩阵有诸多用途，如求最大值，最小值，鞍点等。

d²(Ax+b)^TC(Dx+e)/d(X²)= A^TCD + D^TC^TA

$Hessian$

posted on 2013-09-21 20:52 阿笨猫阅读(8555) 评论(0) 收藏举报