测绘线性代数(四):数学期望、协方差、PCA

数学期望

E(X) = ∑pixi,X为所有xi的集合,pi为xi对应的概率。

通常来说,xi都是离散的,除非像高斯分布,假设xi不是离散的,才用上式。

当xi是离散的,那么:

E(X) = 1 / n * ∑ xi,因为xi的概率都为 1 / n,这时数学期望相当于均值

(那么高斯分布,E(X) = ∫ p(x)*x dx,∫其实就是sum中的s,只不过每次x的变化是dx,无限小。所以对于∫的看法,近似看作∑操作)

 

方差

D(X) = E{ [ X - E (X) ]2}    (注:“{}”、“[]”只是代表括号的一个层次,不代表一种新的运算)

为了方便,令E(X) = μ

D(X) = E[ (X -μ )2

等价于

D(X) =  ∑ pi * ( xi - μ )²  

当X为离散集合时,等价于

D(X) =  1/ n ∑ ( xi - μ )²  

使用矩阵运算,代替∑操作,等价于

D(x) = 1 / n * [ x- μ , x- μ ... x- μ ][ x- μ , x- μ ... x- μ ] T

(那么高斯分布,自然是 D(X) = ∫ f(x) * [ x - E(X) ]2 dx)

通常,令 σx= D(x), σx又叫中误差

 

数学意义:

1、仅仅考虑离散的时候,当 ( xi - μ )² ,相当于xi 偏离均值μ的距离平方

2、1/ n ∑ ( xi - μ )² ,相当于 【偏离均值的距离平方】的均值。本质依然是【偏离均值μ的距离平方】。(平均身高,依然还叫身高的意思)

3、对以上开根号,即:sqrt ( D(X) )或 σx,那么,相当于【偏离均值μ的距离】

4、可以想象,其中xj..xk 波动特别大,甚至符号相反, σx也会特别大(即使E(X)=0), 所以, σx 一般用来形容数据的稳定程度 )

5、在高斯分布中,x 落在 [ μ - σ , μ + σ] 的概率大概是0.68

 

 

协方差

参考:马同学 (matongxue.com)

假如有:

  X Y
样本1 152 45
样本2 160 54
样本3 172 44
样本4 175 64
样本5 180 80

如何表示这种数据?

表示一:

 

表示二:

 

 

 协方差定义:

Cov(x,y) = Var(X) = σxy = E{ [ X - E(X) ] [ Y - E(Y) ] }   ((x,y)代表X和Y的集合,X代表样本点)

当XY均为离散点时:

σxy = 1 / n  ∑ ( xi - μx ) ( yi - μy ),(单位:x的单位*y的单位)

其中

 ( xi - μx ) ( yi - μy ) 正正是面积,分正负,那么σxy 视为加权面积和

相关系数

ρ = σxy / (σx σy) ,没有单位 ,   -1 ≤ ρ ≤ 1

 

协方差矩阵

协方差矩阵,其实和协方差不是同样的东西,它包含了方差、协方差的数据,正确来说,应该称为【方差-协方差矩阵】

xx的意思是,两个不同的集合

计算办法:

 

 

 

n为样本数量

 XX 2*n = [ X,Y ]T = [ [x1,x2,...xn] , [y1,y2,...yn] ]T

 X -  E(X)  = [ X - E(X) , Y - E(Y)] ,2 * n 

 Dxx  = E { [ X -  E(X) ][ X -  E(X) ]T }

 

降维 

SVD分解:SVD分解 - 耀礼士多德 - 博客园 (cnblogs.com)

奇异值分解,可视为:

Am*n = Um*nΣn*nVT n*m = σ1u1v1T + σ2u2v2T + σ3u3v3T +....

 σ1 > σ2 > σ3

当σ1 >> σ2 时, Am*n ≈  σ1u1v1T

其中,u1 为 m*1向量,vT为 1 * n 向量 ,因此,对数据实现了降维,或者主成分提取

引用:(11 封私信 / 11 条消息) 如何通俗易懂地讲解什么是 PCA 主成分分析? - 知乎 (zhihu.com)

 

PCA

y = x,那么其实只要保留y就可以了

 

进行中心化,即 X = X - E(X)

 

 

 

 

 

 

达到了降维,注意,降维了之后,就不是“面积”、“房价”了。

( 直觉有一个向量是(1,1)或者(1,0),不知道这个向量是什么含义)

非理想降维

 

 

总有一组e1,e,正交单位向量,使得:

对于每个样本数据 ai = [ xi , yi ][ e, e]T = xie1 + yie2

注意:

1、a是一个向量,维度和样本点的维度是一样的。

2、无论e1,e2 是哪两个,只要附合正交单位向量,那么【a的长度】是固定的

3、【a的长度】,应该就是【降维】后的主元1,它的值恒等于一个值 di2 = xi2 + yi2

 

那么,降维的理想情况,要x尽量的大,即分配给e1尽量多,那么,在计算ai 时, yie2、 zie3 等等项,可以去掉。

最终要的成果是e1,以及降维后的一维数组[d1,d2,d3...]。

(如果多维,那么要e1,e2,以及两个数组D、E等)

设想:

(一)一个很扁的橄榄球,降维后只要一个平面,这个平面依然很像橄榄球。

(二)一堆二维点集,近似一条直线,降维后,只保留了D和e1,原来的数据量为 2 *n,现在只要 n + 2,d * e1依然看着是一条直线,只是部分偏离直线的样本失真了。

[X,Y]n*2 = [di] n*1e1, e1为 2*1的列向量

 

这里先考虑二维:

那么,有如下目标:  ∑ xi2 最大(等价于∑di2最大),i由1~n,表示有n个样本而且这里的xi,是以e1、e2为基的坐标。

(假设样本,在e1,e2基下的坐标,为(xi,yi))

e1 = [e11,e12]

xi2,其实就是各个样本中心化向量a、b、c、d,投影在e1 上的长度平方

假设有样本:

a = [a1,b1]T 

b = [a2,b2]T 

c = [a3,b3]T 

(按照上边的原理,各个样本向量,应该是中心化后的)

 ∑ xi2 = (aTe1) 2 + (bTe1) +  (cTe1) 2

(aTe就是点积操作,点积的几何意义,ab = |a||b|cosθ,当|b|等于1时,就是a投影在b上的长度)

 等价于

∑ xi2 = (a1e11 + b1e12)2 +(a2e11 + b2e12)2 + (a3e11 + b3e12)2

         =( a12e112 + 2a1b1e11e12 + b12e122 ) + ( a22e11+ 2a2b2e11e12 + b22e12) + ( a32e11+ 2a3b3e11e12 + b32e12)

         = ( a12 +  a22 + a32)e112 + 2 (a1b1 + a2b+a3b)e11e12 + (b12+b22+b32+)e122

 等价于:

(ai = xi - μ , 相当于上面介绍的,就是X、Y的方差-协方差矩阵,只是没有乘以1/n,对于向量而然,各个分量乘以一个常数是不影响的)

那么,令中间的矩阵为P,因为P为【对称矩阵】,那么就可以对角化成:

P = UΣUT

U为正交矩阵

∑为对角矩阵,对角元素为 σ1, σ2 , 且 σ1 > σ2

三个都为2*2矩阵

代入P ,得到:

∑ xi e1TUΣUTe1 =(UTe1)T Σ (UTe1)

 N = [n1,n2]T = UTe1  = [u1,u2] [e11,e12]T 

(单位正交向量,被单位正交向量的分量线性组合,也是单位向量,也即是 |n| = 1)

∑ xi =  NΣ N =  σ1 n+ σ2 n2

综合上述,需要满足如下条件,求得e1 : (求得e1后,样本向量点积,就能求得各个xi,实现降维)

(目标是求 n1,n2,又从P = UΣUT得到向量u1、u2,就可以求得e11,e12了)

(1)∑ xi =  NΣ N =  σ1 n12 + σ2 n22最大

(2)σ> σ2

(3)|n| =1,也就是 n12 + n22 = 1

使用【拉格朗日乘数法】求【条件极值】:条件极值杀手——拉格朗日乘数法 - 知乎 (zhihu.com)

 F =  σ1 n12 + σ2 n22

条件:

 φ =  n12 + n22 - 1 = 0

解方程组:

F/dx +  λ φ/dx = 0

F/dy +  λ φ/dy = 0 

φ = 0 

解出x,y,λ,λ又叫【拉格朗日乘数】

当n1 =1 ,n2 =0 时 , 满足条件(怎么解以后再算)

那么:

n = [1,0]T  = UTe1  = [u1,u2] [e11,e12]T

Un =UUTe

因为U是正交单位阵,所以UU= I

因此:

e1 =  U[1,0]T

也就是e1, 取U的第一列,也就是奇异值最大的列。

(同理,如果令∑ xi2 最小,可以得到e2 

 

 

 

 

 求得:

e1 =(-0.78,-0.62)T

e=(-0.62,0.78)T

然后,用点积操作   x1 = aTe1 = [a1,b1] e , y1= aTe2  = [a1,b1] e , 点积,求出在以(e1, e2)基下的坐标。

例如:

x = 5.4*(-0.78) + 4.4*(-0.62) = -6.94

x1*e1 = (-6.94*-0.78 , -6.94*-0.62)= (5.4132,4.3)≈ a

还原:

a = x1 e1 + y1 e2

a = (a1e11+b1e12)e1 + (a1e21 + b1e22) e2

现在可以忽略掉y1 e2 ,因为y1 是微小值,起不到什么作用,最终实现了降维,保留了新的X集合,以及最大奇异值对应的特征向量。

在几何上,e1 向量为直线方向,e2向量为垂直于直线方向。

posted on 2021-07-27 09:32  耀礼士多德  阅读(28)  评论(0编辑  收藏  举报