# 概率视角下的向量变换
均值,方差 (Mean and variance)
连续发布的均值公式如下
\[discrete: \quad \mathbb{E}(x) \triangleq \sum_{x \in \mathcal{X}} x p(x) \\
continuous: \quad \mathbb{E}(x) \triangleq \int_{\mathcal{X}} x p(x) d x
\]
方差公式:
\[\begin{aligned}
\operatorname{var}[X] & \triangleq \mathbb{E}\left[(X-\mu)^2\right]=\int(x-\mu)^2 p(x) d x \\
&=\int x^2 p(x) d x+\mu^2 \int p(x) d x-2 \mu \int x p(x) d x=\mathbb{E}\left[X^2\right]-\mu^2
\end{aligned}
\]
协方差和关联性 (Covariance and correlation)
协方差反映了变量之间的线性相关性,我们计算随机变量X和Y(标量)的协方差,通过以下公式
\[\operatorname{cov}[X, Y] \triangleq \mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]=\mathbb{E}[X Y]-\mathbb{E}[X] \mathbb{E}[Y]
\]
以上公式计算了变量X和Y的协方差,但是此时X和Y是标量,但是我们在ML中分析的X一般来说是有多个特征的向量,我们可以用协方差矩阵来衡量每个特征的相关性
\[\begin{aligned}
\operatorname{cov}[\mathbf{x}] & \triangleq \mathbb{E}\left[(\mathbf{x}-\mathbb{E}[\mathbf{x}])(\mathrm{x}-\mathbb{E}[\mathrm{x}])^T\right] \\
&=\left(\begin{array}{cccc}
\operatorname{var}\left[X_1\right] & \operatorname{cov}\left[X_1, X_2\right] & \cdots & \operatorname{cov}\left[X_1, X_d\right] \\
\operatorname{cov}\left[X_2, X_1\right] & \operatorname{var}\left[X_2\right] & \cdots & \operatorname{cov}\left[X_2, X_d\right] \\
\vdots & \vdots & \ddots & \vdots \\
\operatorname{cov}\left[X_d, X_1\right] & \operatorname{cov}\left[X_d, X_2\right] & \cdots & \operatorname{var}\left[X_d\right]
\end{array}\right)
\end{aligned}
\]
由于协方差分布在0 和无穷大数上,但是对于数学计算,使用标准化的数(具有下界和上界)更为方便,因此经常使用关联性系数衡量线性相关性
\[\operatorname{corr}[X, Y] \triangleq \frac{\operatorname{cov}[X, Y]}{\sqrt{\operatorname{var}[X] \operatorname{var}[Y]}}
\]
同理也有关联性矩阵
\[\mathbf{R}=\left(\begin{array}{cccc}
\operatorname{corr}\left[X_1, X_1\right] & \operatorname{corr}\left[X_1, X_2\right] & \cdots & \operatorname{corr}\left[X_1, X_d\right] \\
\vdots & \vdots & \ddots & \vdots \\
\operatorname{corr}\left[X_d, X_1\right] & \operatorname{corr}\left[X_d, X_2\right] & \cdots & \operatorname{corr}\left[X_d, X_d\right]
\end{array}\right)
\]
对于随机变量 \(\mathbf{x} \sim p()\) ,如果对于 \(y = f(x)\) ,那么存在某种关系 \(y \sim p()\) ,称y是x的变换,一般有以下几种变换
线性变换
令 \(y = f(x) = A x+b\) ,那么满足以下关系,
\[\mathbb{E}[\mathbf{y}]=\mathbb{E}[\mathbf{A} \mathbf{x}+\mathbf{b}]= \int(A x+b) p(x){\rm d} x = A\int (x)p(x){\rm d}(x) + b\int p(x) {\rm d}x \\ = A \mathbb{E}(x) +b
\]
\[\operatorname{cov}[\mathbf{y}]=\operatorname{cov}[\mathbf{A} \mathbf{x}+\mathbf{b}]=\mathbf{A} \mathbf{\Sigma} \mathbf{A}^T
\]
以上的\(\Sigma = cov[x]\),证明:
\[cov[y] = \mathbb{E}[(y- \mathbb{E}[y])(y- \mathbb{E}[y])^T] \\
= \mathbb{E}[(Ax+b - \mathbb{E}[Ax+b])(Ax+b - \mathbb{E}[Ax+b])^T] \\
= \mathbb{E}[(Ax-A\mathbb{E}[x])(Ax-A\mathbb{E}[x])^T)] = E[A(x-\mathbb{E}[x])(x-\mathbb{E}[x])^TA^T] \\
= \int A(x-\mathbb{E}[x])(x-\mathbb{E}[x])^TA^T p(x) {\rm d}x
= A \Sigma A^T
\]
一般变换
对于非线性的一般变换,我们可以定义下列普适法则
对于离散随机变量,其概率质量函数满足
\[p_y(y)=\sum_{x: f(x)=y} p_x(x)
\]
对于连续随机变量,其累计发布函数满足
\[P_y(y) \triangleq P(Y \leq y)=P(f(X) \leq y)=P(X \in\{x \mid f(x) \leq y\}) \\
\]
对于\(f(x)\)是单调可反的情况,可以满足以下条件:
\[x = f^{-1}(y) \\
P_y(y)=P(f(X) \leq y)=P\left(X \leq f^{-1}(y)\right)=P_x\left(f^{-1}(y)\right)
\]
可以使用概率密度函数推导:
\[p_y(y) \triangleq \frac{d}{d y} P_y(y)=\frac{d}{d y} P_x\left(f^{-1}(y)\right)=\frac{d x}{d y} \frac{d}{d x} P_x(x)=\frac{d x}{d y} p_x(x)
\]
由于,概率密度函数都是正值,所以\(\frac {dx}{dy}\)的正负性并不重要,得
\[p_y(y)=p_x(x)\left|\frac{d x}{d y}\right|
\]
以上我们讨论了连续随机变量的变换原理,接下来我们要深入讨论向量形式下的连续随机变量的变换,我们进行下列推导
由于\(x\)和\(y\)是向量,所以其\(\frac {{\rm d}x} {\rm dy}\)的形式是Jacobian matrix,这里我们假设 \(y \rightarrow x\)是\(R^n\)到\(R^n\)的映射
\[\mathbf{J}_{\mathbf{x} \rightarrow \mathbf{y}} \triangleq \frac{\partial\left(y_1, \ldots, y_n\right)}{\partial\left(x_1, \ldots, x_n\right)} \triangleq\left(\begin{array}{ccc}
\frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\
\vdots & \ddots & \vdots \\
\frac{\partial y_n}{\partial x_1} & \cdots & \frac{\partial y_n}{\partial x_n}
\end{array}\right)
\]
雅可比矩阵的行列式反映了变换后的空间和原空间的面积(2d),体积(3d)等的比例,也被称为缩放因子,如果\(f\)是一个可逆函数,满足\(p_y(y)=p_x(x)\left|\frac{d x}{d y}\right|\),对于向量形式随机变量
\[p_y(\mathbf{y})=p_x(\mathbf{x})\left|\operatorname{det}\left(\frac{\partial \mathbf{x}}{\partial \mathbf{y}}\right)\right|=p_x(\mathbf{x})\left|\operatorname{det} \mathbf{J}_{\mathbf{y} \rightarrow \mathbf{x}}\right|
\]
中心极限定理 (正态变换)
中心极限定理: 设定有 \(n\) 个独立且完全相同的随机变量 \(Y_1, Y_2, Y_3, \ldots, Y_n\) ,他们的期望 \(E\left(Y_i\right)=\mu\) ,方 差 \(V\left(Y_i\right)=\sigma^2\) 。定义随机变量: | \(U_n=\frac{\bar{Y}-\mu}{\sigma / \sqrt{n}}, \bar{Y}=\frac{1}{n} \sum_{i=1}^n Y_i\)
那么,\(U_n\)是关于\(n\)的分布,当 \(n\) 趋向于无穷大时,随机变量 \(\bar{Y}\),\(U_n\) 趋向于标准正态分布。\(\bar{Y}\)满足的正态分布的公式如下:
\[p\left(\bar{Y}=s\right)=\frac{1}{\sqrt{2 \pi N \sigma^2}} \exp \left(-\frac{(s-N \mu)^2}{2 N \sigma^2}\right)
\]