关于雅可比矩阵的理解

数学忘干净了呜呜.

在学习信息论时遇到了一个问题: 如何将向量求导或者积分. 听起来很正常, 但是写起来很奇怪. 比如下式:

\[\int f(\vec{x}) \text d\vec{x} \]

\[\frac{\partial\vec{y}}{\partial\vec{x}} \]

大部分人都学过雅可比矩阵, 其定义是一个向量关于另一个向量的导数, 比如:

\[\frac{\partial\vec{y}}{\partial\vec{x}}=\frac{\partial(y_1,y_2,\cdots)}{\partial(x_1,x_2,\cdots)}=\left(\begin{matrix} \frac{\partial y_1}{\partial x_1}&\frac{\partial y_1}{\partial x_2}&\cdots\\\frac{\partial y_2}{\partial x_1}&\frac{\partial y_2}{\partial x_2}&\cdots\\ \vdots&\vdots&\ddots \end{matrix}\right) \]

应该明确一下积分式中 \(\text d\vec{x}\) 的意义.

定义积分式中

\[\text{d}\vec{x}=\text dx_1\text dx_2\cdots\text dx_n \]

这说明这种积分式中的 \(\text d\vec x\) 是一个 "标量", 亦即一个超体积元.

这样就可以理解

\[\int f(\vec{x}) \text d\vec{x}=\int f(x_1,x_2,\cdots) \text dx_1\text dx_2\cdots \]

是一个普通的多元积分.

如果我们反过来考虑, 把 \(\text d\) 当作一个算子, 作用在 \(\vec x=(x_1,x_2,\cdots,x_n)\) 上得到一个标量, 就像函数 \(f(\vec x)\) 一样, \(f(\vec x)\) 可以在换元后变为 \(g(\vec y)\), \(\text d\vec x\) 需要根据雅可比矩阵转化为 \(|\mathscr J|\text d\vec y\).

不过这仅限于多元积分, 曲线积分中的 \(\text d\vec r\) 确实是一个向量. 这也侧面说明了对于不同的上下文 (\(f\) 具体是什么域映射到什么域), 向量的微分可能是一个标量, 也可能是一个向量.

让我们来看一道信息论的题目:

\[h(A\vec x)=h(\vec x)+\log|A| \]

\(\vec y=A\vec x\)

注意到概率质量不变 \(f(\vec x)\text d\vec x=g(\vec y)\text d\vec y\), 雅可比式 \(|\mathscr J|=|A|\)

\[\begin{aligned} h(\vec y)=&-\int g(\vec y) \log g(\vec y)\text d\vec y\\ =&-\int \frac{f(\vec x)}{|A|} \log \left(\frac{f(\vec x)}{|A|}\right) |A|\text d\vec x\\ =&-\int f(\vec x)\log f(\vec x)\text d\vec x+\log|A|\int f(\vec x)\text d\vec x\\ =&h(\vec x)+\log|A| \end{aligned} \]

当然, 更广意义上, 矩阵也可以对矩阵求导, 这通常会得到一个四阶张量.

posted @ 2023-12-07 12:32  rainrzk  阅读(67)  评论(0)    收藏  举报