概率视角下的向量变换

# 概率视角下的向量变换

均值，方差 (Mean and variance)

连续发布的均值公式如下

\[discrete: \quad \mathbb{E}(x) \triangleq \sum_{x \in \mathcal{X}} x p(x) \\ continuous: \quad \mathbb{E}(x) \triangleq \int_{\mathcal{X}} x p(x) d x \]

方差公式:

\[\begin{aligned} \operatorname{var}[X] & \triangleq \mathbb{E}\left[(X-\mu)^2\right]=\int(x-\mu)^2 p(x) d x \\ &=\int x^2 p(x) d x+\mu^2 \int p(x) d x-2 \mu \int x p(x) d x=\mathbb{E}\left[X^2\right]-\mu^2 \end{aligned} \]

协方差和关联性 (Covariance and correlation)

协方差反映了变量之间的线性相关性，我们计算随机变量X和Y(标量)的协方差，通过以下公式

\[\operatorname{cov}[X, Y] \triangleq \mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]=\mathbb{E}[X Y]-\mathbb{E}[X] \mathbb{E}[Y] \]

以上公式计算了变量X和Y的协方差，但是此时X和Y是标量，但是我们在ML中分析的X一般来说是有多个特征的向量，我们可以用协方差矩阵来衡量每个特征的相关性

\[\begin{aligned} \operatorname{cov}[\mathbf{x}] & \triangleq \mathbb{E}\left[(\mathbf{x}-\mathbb{E}[\mathbf{x}])(\mathrm{x}-\mathbb{E}[\mathrm{x}])^T\right] \\ &=\left(\begin{array}{cccc} \operatorname{var}\left[X_1\right] & \operatorname{cov}\left[X_1, X_2\right] & \cdots & \operatorname{cov}\left[X_1, X_d\right] \\ \operatorname{cov}\left[X_2, X_1\right] & \operatorname{var}\left[X_2\right] & \cdots & \operatorname{cov}\left[X_2, X_d\right] \\ \vdots & \vdots & \ddots & \vdots \\ \operatorname{cov}\left[X_d, X_1\right] & \operatorname{cov}\left[X_d, X_2\right] & \cdots & \operatorname{var}\left[X_d\right] \end{array}\right) \end{aligned} \]

由于协方差分布在0 和无穷大数上，但是对于数学计算，使用标准化的数(具有下界和上界)更为方便，因此经常使用关联性系数衡量线性相关性

\[\operatorname{corr}[X, Y] \triangleq \frac{\operatorname{cov}[X, Y]}{\sqrt{\operatorname{var}[X] \operatorname{var}[Y]}} \]

同理也有关联性矩阵

\[\mathbf{R}=\left(\begin{array}{cccc} \operatorname{corr}\left[X_1, X_1\right] & \operatorname{corr}\left[X_1, X_2\right] & \cdots & \operatorname{corr}\left[X_1, X_d\right] \\ \vdots & \vdots & \ddots & \vdots \\ \operatorname{corr}\left[X_d, X_1\right] & \operatorname{corr}\left[X_d, X_2\right] & \cdots & \operatorname{corr}\left[X_d, X_d\right] \end{array}\right) \]

随机变量变换 (Transformations of random variables)

对于随机变量 \(\mathbf{x} \sim p()\) ，如果对于 \(y = f(x)\) ，那么存在某种关系 \(y \sim p()\) ，称y是x的变换，一般有以下几种变换

线性变换

令 \(y = f(x) = A x+b\) ，那么满足以下关系，

\[\mathbb{E}[\mathbf{y}]=\mathbb{E}[\mathbf{A} \mathbf{x}+\mathbf{b}]= \int(A x+b) p(x){\rm d} x = A\int (x)p(x){\rm d}(x) + b\int p(x) {\rm d}x \\ = A \mathbb{E}(x) +b \]

\[\operatorname{cov}[\mathbf{y}]=\operatorname{cov}[\mathbf{A} \mathbf{x}+\mathbf{b}]=\mathbf{A} \mathbf{\Sigma} \mathbf{A}^T \]

以上的\(\Sigma = cov[x]\)，证明:

\[cov[y] = \mathbb{E}[(y- \mathbb{E}[y])(y- \mathbb{E}[y])^T] \\ = \mathbb{E}[(Ax+b - \mathbb{E}[Ax+b])(Ax+b - \mathbb{E}[Ax+b])^T] \\ = \mathbb{E}[(Ax-A\mathbb{E}[x])(Ax-A\mathbb{E}[x])^T)] = E[A(x-\mathbb{E}[x])(x-\mathbb{E}[x])^TA^T] \\ = \int A(x-\mathbb{E}[x])(x-\mathbb{E}[x])^TA^T p(x) {\rm d}x = A \Sigma A^T \]

一般变换

对于非线性的一般变换，我们可以定义下列普适法则

对于离散随机变量，其概率质量函数满足

\[p_y(y)=\sum_{x: f(x)=y} p_x(x) \]

对于连续随机变量，其累计发布函数满足

\[P_y(y) \triangleq P(Y \leq y)=P(f(X) \leq y)=P(X \in\{x \mid f(x) \leq y\}) \\ \]

对于\(f(x)\)是单调可反的情况，可以满足以下条件:

\[x = f^{-1}(y) \\ P_y(y)=P(f(X) \leq y)=P\left(X \leq f^{-1}(y)\right)=P_x\left(f^{-1}(y)\right) \]

可以使用概率密度函数推导:

\[p_y(y) \triangleq \frac{d}{d y} P_y(y)=\frac{d}{d y} P_x\left(f^{-1}(y)\right)=\frac{d x}{d y} \frac{d}{d x} P_x(x)=\frac{d x}{d y} p_x(x) \]

由于，概率密度函数都是正值，所以\(\frac {dx}{dy}\)的正负性并不重要，得

\[p_y(y)=p_x(x)\left|\frac{d x}{d y}\right| \]

以上我们讨论了连续随机变量的变换原理，接下来我们要深入讨论向量形式下的连续随机变量的变换，我们进行下列推导

由于\(x\)和\(y\)是向量，所以其\(\frac {{\rm d}x} {\rm dy}\)的形式是Jacobian matrix，这里我们假设 \(y \rightarrow x\)是\(R^n\)到\(R^n\)的映射

\[\mathbf{J}_{\mathbf{x} \rightarrow \mathbf{y}} \triangleq \frac{\partial\left(y_1, \ldots, y_n\right)}{\partial\left(x_1, \ldots, x_n\right)} \triangleq\left(\begin{array}{ccc} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_n}{\partial x_1} & \cdots & \frac{\partial y_n}{\partial x_n} \end{array}\right) \]

雅可比矩阵的行列式反映了变换后的空间和原空间的面积(2d)，体积（3d）等的比例，也被称为缩放因子，如果\(f\)是一个可逆函数，满足\(p_y(y)=p_x(x)\left|\frac{d x}{d y}\right|\)，对于向量形式随机变量

\[p_y(\mathbf{y})=p_x(\mathbf{x})\left|\operatorname{det}\left(\frac{\partial \mathbf{x}}{\partial \mathbf{y}}\right)\right|=p_x(\mathbf{x})\left|\operatorname{det} \mathbf{J}_{\mathbf{y} \rightarrow \mathbf{x}}\right| \]

中心极限定理 (正态变换)

中心极限定理: 设定有 \(n\) 个独立且完全相同的随机变量 \(Y_1, Y_2, Y_3, \ldots, Y_n\) ，他们的期望 \(E\left(Y_i\right)=\mu\) ，方差 \(V\left(Y_i\right)=\sigma^2\) 。定义随机变量: | \(U_n=\frac{\bar{Y}-\mu}{\sigma / \sqrt{n}}, \bar{Y}=\frac{1}{n} \sum_{i=1}^n Y_i\)
那么，\(U_n\)是关于\(n\)的分布,当 \(n\) 趋向于无穷大时，随机变量 \(\bar{Y}\)，\(U_n\) 趋向于标准正态分布。\(\bar{Y}\)满足的正态分布的公式如下:

\[p\left(\bar{Y}=s\right)=\frac{1}{\sqrt{2 \pi N \sigma^2}} \exp \left(-\frac{(s-N \mu)^2}{2 N \sigma^2}\right) \]

posted @ 2022-09-17 16:51 1zeryu 阅读(136) 评论(0) 收藏举报

刷新页面返回顶部

1zeryu