关于雅可比矩阵的理解
数学忘干净了呜呜.
在学习信息论时遇到了一个问题: 如何将向量求导或者积分. 听起来很正常, 但是写起来很奇怪. 比如下式:
\[\int f(\vec{x}) \text d\vec{x}
\]
\[\frac{\partial\vec{y}}{\partial\vec{x}}
\]
大部分人都学过雅可比矩阵, 其定义是一个向量关于另一个向量的导数, 比如:
\[\frac{\partial\vec{y}}{\partial\vec{x}}=\frac{\partial(y_1,y_2,\cdots)}{\partial(x_1,x_2,\cdots)}=\left(\begin{matrix} \frac{\partial y_1}{\partial x_1}&\frac{\partial y_1}{\partial x_2}&\cdots\\\frac{\partial y_2}{\partial x_1}&\frac{\partial y_2}{\partial x_2}&\cdots\\
\vdots&\vdots&\ddots
\end{matrix}\right)
\]
应该明确一下积分式中 \(\text d\vec{x}\) 的意义.
定义积分式中
\[\text{d}\vec{x}=\text dx_1\text dx_2\cdots\text dx_n
\]
这说明这种积分式中的 \(\text d\vec x\) 是一个 "标量", 亦即一个超体积元.
这样就可以理解
\[\int f(\vec{x}) \text d\vec{x}=\int f(x_1,x_2,\cdots) \text dx_1\text dx_2\cdots
\]
是一个普通的多元积分.
如果我们反过来考虑, 把 \(\text d\) 当作一个算子, 作用在 \(\vec x=(x_1,x_2,\cdots,x_n)\) 上得到一个标量, 就像函数 \(f(\vec x)\) 一样, \(f(\vec x)\) 可以在换元后变为 \(g(\vec y)\), \(\text d\vec x\) 需要根据雅可比矩阵转化为 \(|\mathscr J|\text d\vec y\).
不过这仅限于多元积分, 曲线积分中的 \(\text d\vec r\) 确实是一个向量. 这也侧面说明了对于不同的上下文 (\(f\) 具体是什么域映射到什么域), 向量的微分可能是一个标量, 也可能是一个向量.
让我们来看一道信息论的题目:
\[h(A\vec x)=h(\vec x)+\log|A|
\]
令 \(\vec y=A\vec x\)
注意到概率质量不变 \(f(\vec x)\text d\vec x=g(\vec y)\text d\vec y\), 雅可比式 \(|\mathscr J|=|A|\)
\[\begin{aligned}
h(\vec y)=&-\int g(\vec y) \log g(\vec y)\text d\vec y\\
=&-\int \frac{f(\vec x)}{|A|} \log \left(\frac{f(\vec x)}{|A|}\right) |A|\text d\vec x\\
=&-\int f(\vec x)\log f(\vec x)\text d\vec x+\log|A|\int f(\vec x)\text d\vec x\\
=&h(\vec x)+\log|A|
\end{aligned}
\]
当然, 更广意义上, 矩阵也可以对矩阵求导, 这通常会得到一个四阶张量.

浙公网安备 33010602011771号