(原创)机器学习之矩阵论(二)

         目录

一、线性空间

1.    线性空间的概念

(1) 线性空间的定义

(2) 线性空间的本质

2.    线性空间的基

(1) 线性表示

(2) 线性相关

(3) 线性无关

(4) 线性空间基的定义

(5) 坐标

3.   线性空间的范数

(1) 范数的定义

(2) 赋范线性空间中的距离

(3) 欧几里得范数

(4) Lp范数

(5) Frobenius范数,矩阵中常用的范数

二、  矩阵分解

1.   方阵的正交分解

(1) 特征值和特征向量的定义

(2) 特征值:

(3) 特征向量:

(4) 矩阵分解

(5) 特征向量与其特征值之间的关系

2.   正交分解

(1) 正交矩阵

(2)  标准正交基

(3)  正交矩阵的性质

(4)  正交分解

3.   矩阵的奇异值分解(SVD)

(1) 非退化方阵的SVD

(2) 一般矩阵的SVD

(3) 伪逆(Moor-Penrose)

(4) 不相容线性方程组的解

(5)  定理

4.   主成分分析(PCA)

 

一、线性空间

1. 线性空间的概念

(1)  线性空间的定义

  设V是一个非空集合,R为实数域。如果对于任意两个元素 𝛼,𝛽∈𝑉,总有唯一的元素 𝛾∈𝑉与之对应,成为 𝛼和𝛽的和(和的运算法则可以任意定义),记为 𝛾=𝛼+𝛽;

  又对于任一实数λ∈𝑅和任一元素𝛼∈𝑉,总有唯一的元素𝛿∈𝑉与之对应,称为λ与𝛼的积(积的运算法则可以任意定义),记作 𝛿=λ𝛼;

  并且这两种运算满足以下八条规:

  (设𝛼,𝛽,𝛾∈𝑉,λ,𝜇∈𝑅)

  (i)  𝛼+𝛽=𝛽+𝛼

  (ii) (𝛼+𝛽)+𝛾=𝛼+(𝛽+𝛾)

  (iii) V中存在零元素𝜃𝑉,对任意的𝛼𝑉,都有𝛼+𝜃=𝛼

  (iv对于任何的𝛼𝑉,都有𝛼的负元素𝛿,使得𝛼+𝛿=𝜃

  (v  1𝛼=𝛼

  (viλ(𝜇𝛼)=(λμ)𝛼

  (vii (λ+𝜇)𝛼=λα+𝜇𝛼

  (viii)λ(𝛼+𝛽)=λα+λ𝛽

  那么,集合V就称为(实数域上的)线性空间或向量。

  满足上述八条性质的加法和数乘运算叫做线性运算。

(2) 线性空间的本质:

  在数学上其实就是一个集合,线性集合,只要满足

  对于任意的𝛼𝛽𝑉λ,𝜇𝑅,都有λα+𝜇𝛽𝑉

    即,加法和数乘都是封闭的,都称为线性空间

2. 线性空间的基

(1) 线性表示

  𝛼1,𝛼2,,𝛼𝑛 𝛽∈𝑉,若存在一组实数𝑘1,𝑘2,,𝑘𝑛∈𝑅,满足𝑘1𝛼1+𝑘2𝛼2++𝑘𝑛𝛼𝑛=𝛽

  则称𝛽可以由𝛼1,𝛼2,,𝛼𝑛线性表示。

(2) 线性相关

  𝛼1,𝛼2,,𝛼𝑛∈𝑉,若存在一组不全为0的实数𝑘1,𝑘2,,𝑘𝑛,满足𝑘1𝛼1+𝑘2𝛼2++𝑘𝑛𝛼𝑛=0

  则𝛼1,𝛼2,,𝛼𝑛线性相关。

  诠释:

    1)线性相关,说明至少存在一个向量可以被其余的向量线性表示。

    2)使用线性方程组来说明,就是至少有一个方程是无用的,即至少有一个向量是废的,无用的。

(3)  线性无关

  𝛼1,𝛼2,,𝛼𝑛∈𝑉,若满足𝑘1𝛼1+𝑘2𝛼2++𝑘𝑛𝛼𝑛=0且必有𝑘1=𝑘2==𝑘𝑛=0

  则𝛼1,𝛼2,,𝛼𝑛线性无关。

  诠释:

    1)方程组中每一个方程都是有用的,都是方程组的本质。

(4) 线性空间基的定义

  在线性空间V中,如果存在n个元素𝛼1,𝛼2,,𝛼𝑛,满足:

  (i) 𝛼1,𝛼2,,𝛼𝑛线性无关

  (ii) V中任一元素𝛼都可以由𝛼1,𝛼2,,𝛼𝑛线性表示

      那么,𝛼1,𝛼2,,𝛼𝑛称为线性空间V的一个基,n(基的个数)称为线性空间V的维数。

     空间V称为由基𝛼1,𝛼2,,𝛼𝑛张成的线性空间,记作V =span{𝛼1,𝛼2,,𝛼𝑛}。

  1)   本质

    基的本质就是指基是本质的、消不掉的、基础的东西,可以由此刻画出线性空间中其他所有元素,研究线性空间,研究构成这线性空间的基就可以了。

  2)   基的性质

    线性空间V中的任意元素x,都可以由该线性空间的基线性表示:

    V = { x|x=𝑐1𝛼1+𝑐2𝛼2+⋯+𝑐𝑛𝛼𝑛 },𝑐𝑖为任意实数,𝑖=1,2,…,𝑛

(5)  坐标

  1)定义

    若V是一个线性空间,{𝛼1,𝛼2,,𝛼𝑛}是线性空间V的一组基,对于𝛼∈𝑉,如果有 𝛼=𝑥1𝛼1+𝑥2𝛼2+⋯+𝑥𝑛𝛼𝑛,那么由系数所构成的 n维实向量(𝑥1,𝑥2,…,𝑥𝑛)称为𝛼在基{𝛼1,𝛼2,,𝛼𝑛}下的    

   坐标。因此,线性空间的元素也称为向量,线性空间也称为向量空间。

  2)本质

   在基下的坐标,也就解释了为什么使用坐标可以表示空间中任意一个元素了,如二维坐标中,使用坐标(x,y)可以表示二维空间中任意一个数值。

 3. 线性空间的范数

  范数也称为模

(1)范数的定义

  在线性空间V中定义一种运算||.||:𝑉→𝑹,对于任意的𝛼,𝛽∈𝑉,𝜆∈𝑅,满足如下性质:

  (i) || 𝛼||≥ 0,即若 ||𝛼|| = 0 等价于 𝛼 = 𝜃(零向量)

  (ii) 膨胀性:||𝜆𝛼|| = ||𝜆|| ||𝛼||

  (iii) 三角不等式: ||𝛼+𝛽|| ≤ ||𝛼|| + ||𝛽||

  则称||.||这种运算为线性空间V的一个范数,称V为赋范线性空间。

(2)赋范线性空间中的距离

  赋范线性空间中的元素𝛼,𝛽∈𝑉,定义||𝛼−𝛽||为𝛼,𝛽之间的距离。(即长度,也在这个线性空间中)

(3)欧几里得范数

  在n维向量空间𝑅𝑛中,对于任意向量x = (𝑥1,𝑥2,…,𝑥𝑛)∈𝑅𝑛, 则欧几里得范数:      

   

(4)Lp范数

  在实数空间𝑅𝑛内,但1≤𝑝<∞时,Lp范数定义为:

 

  当𝑝=∞时,𝑅𝑛空间的𝐿∞范数定义为 :

(5) Frobenius范数,矩阵中常用的范数

 

 

二、矩阵分解

1. 方阵的正交分解

(1)  特征值和特征向量的定义

  设 An×n,如果有数 和n维非零列向量𝒙,使得

  则称 为A的特征值,非零列向量𝒙为A的对应与特征值 的特征向量。

  注意:

    1)  A是方阵,方阵才有特征值和特征向量

    2)  特征向量𝒙是非零列向量

    3)  属于特征值 的特征向量不唯一,有无数个

    4)  但一个特征向量只能属于一个特征值

(2)  特征值:

  λ𝑖是关于λ的多项式|𝐴−λ𝐼𝑛|=0的根,记作λ12,…,λ𝑛

(3) 特征向量:

  属于λ𝑖的特征向量是线性方程组 (𝐴−λ𝑖𝐼𝑛)x=0的解。

(4) 矩阵分解

  设{𝒙𝑖1,𝒙𝑖2,…,𝒙𝑖𝑚}是方程组(𝐴−λ𝑖𝐼𝑛)x=0的解空间的基(特征向量),定义一个矩阵:

     𝑃𝑛×𝑛 = [𝒙11,𝒙12,…,𝒙1𝑚,𝒙21,𝒙22,…]𝑛×𝑛

     那么可以把矩阵A分解成如下形式:

   

  称这样的分解为特征分解(或者称为相似对角化)。

  本质:

    1) A可表示为:基(base)*特征值(feature) (联想到了PCA)

    2) A的特征分解可表征其特征向量与其特征值之间的关系

 

 2.  正交分解

(1)  正交矩阵

  定义:满足 𝐴𝐴𝑇=𝐼𝑛(即𝐴−1=𝐴𝑇)的n阶方阵

(2)  标准正交基

  定义:n个n维向量{𝒙1,𝒙2,…,𝒙𝑛}∈𝑅𝑛,满足一下性质

 

  则称{𝒙1,𝒙2,…,𝒙𝑛}∈𝑅𝑛为一组标准正交基。

  几何意义:向量跟自己平行(长度),而与其他都垂直,例如二维空间的坐标。

  性质:[𝒙1,𝒙2,…,𝒙𝑛]为n阶交正矩阵,则{𝒙1,𝒙2,…,𝒙𝑛 ∈𝑅𝑛 } 为一组标准正交基,反之也成立。

(3)  正交矩阵的性质

 

(4) 正交分解

  若n阶方阵A可进行特征分解,即存在n阶可逆矩阵P,使得

    𝑃−1𝐴𝑃 = 𝑑𝑖𝑎𝑔(λ12,…,λ𝑛)

  其中𝜆𝑖为𝐴的特征值, 𝑃𝑛×𝑛 = [𝒙11,𝒙12,…,𝒙1𝑚,𝒙21,𝒙22,…]𝑛×𝑛列向量为𝜆𝑖对应的特征向量。

  那么,一定存在:

  另一组属于𝜆𝑖的特征向量Q=[𝒚11,𝒚12,…,𝒚1𝑚,𝒚21,𝒚22,…],满足向量组{ 𝒚11,𝒚12,…,𝒚1𝑚,𝒚21,𝒚22,…}是一组n维标准正交基,即Q是n阶正交矩阵,则有

    𝑄−1𝐴𝑄=𝑄𝑇𝐴𝑄=𝑑𝑖𝑎𝑔(λ12,…,λ𝑛)

  称该分解为正交分解。

      本质:正交分解是一种特殊的特征分解。
 

3.  矩阵的奇异值分解(SVD)

  如果矩阵不可特征分解怎么办?引入了矩阵的奇异值分解。

(1)  非退化方阵的SVD

  设𝐴是n阶非退化方阵,即满秩:𝑟(𝐴)=𝑛。那么存在正交矩阵P和Q,使得

    𝑃𝑇𝐴𝑄=diag(𝛼1,𝛼2,…,𝛼𝑛)

  其中 𝛼𝑖 > 0(𝑖=1,2,…,𝑛),但不是特征值,而是奇异值。称为非退化方阵的SVD。

  性质:

    1) 不一定每个方阵都可以正交分解,只有实对称矩阵(𝐴=𝐴𝑇)一定可以正交分解。但是每个方阵都可以进行SVD。

    2)正交分解是同一个正交矩阵Q,SVD分解是两个正交矩阵PQ

    3)正交分解对角线是特征值,SVD对角线不是特征值,但都大于0

(2) 一般矩阵的SVD

  设A是秩为𝑟(𝑟 > 0)的𝑚×𝑛阶实矩阵,则存在m阶正交矩阵U和n阶正交矩阵V,使得

 

  其中Λ𝑟=diag (𝜎1,𝜎2,…,𝜎𝑟)

  𝜎1≥𝜎2≥⋯≥𝜎𝑟>0为矩阵𝐴的全部奇异值.

 

  𝑈𝑖,𝑉𝑖为矩阵𝑈,𝑉的列向量。

(3) 伪逆(Moor-Penrose)

 

  则称𝐴+为矩阵A的伪逆,上述四个方程称为Moore –Penrose方程。

(4) 不相容线性方程组的解

  1)定义:设𝐴∈𝑅𝑚×𝑛,𝒃∈𝑅𝑚,𝐴𝒙=𝒃是不相容线性方程组(即无解的方程组)。

       若存在向量𝑥0∈𝑅𝑛,使得对于任何𝒙∈𝑅𝑛,都有

        ||𝐴𝑥0−𝑏||≤||𝐴𝑥−𝑏||

      则称𝑥0为方程组𝐴𝒙=𝒃的最小乘解。

       本质:虽然无解,但可以找一个与解最近的一个解,最近,则使用范数来衡量。

   2)若𝑢是方程组𝐴𝒙=𝒃的最小二乘解,如果对于任意一个𝑥0,都有

                 ||𝑢|| ≤ ||𝑥0||  (即取自己长度最短的)

    则称𝑢是最佳最小二乘解。

(5) 定理

  1) 设𝐴∈𝑅𝑚×𝑛,𝒃∈𝑅𝑚,则向量𝒙=𝐴+𝒃是方程组𝐴𝒙=𝒃的最佳最小二乘解。

  2) 如果矩阵A的𝑆𝑉𝐷为𝐴=𝑈Λ𝑉𝑇,那么A的伪逆为𝐴+=𝑉Λ+𝑈𝑇,其中Λ+是Λ的伪逆,是将Λ主对角线上非零元素𝜎𝑖取倒数变成1/𝜎𝑖之后再取转置。

4.  主成分分析(PCA)

(1)  计算样品数据的协方差矩阵 𝐴=(S𝑖𝑗)𝑛×𝑛,其中

(2)  对矩阵𝐴进行正交分解,并对特征值进行排序

(3) 确定最小的m,使得贡献率

或者大于设定的某个值。

(4) 则主成分变量为:𝐹𝑖 = 𝑄𝑖𝒙 (i=1…m),其中

𝒙= (𝑥1,…,𝑥𝑛)𝑇

𝑄𝑖为正交矩阵𝑄的第𝑖列向量

 

      -tany 2017年10月3日 于杭州

 

人工智能从入门到专家教程资料:https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765

posted @ 2017-10-03 23:06  tanv  阅读(1014)  评论(0编辑  收藏  举报