推导：PCA主成分分析&LDA线性判别分析

    希望自己学过了就留个痕。

PCA和LDA都是在通过降维进行特征提取，PCA倾向于数据重构（就如名字一样主成分分析），LDA倾向于数据分类（更好的将不同类别分开）。

考虑它具体在做什么事情，其实在每个样本进行中心化处理后（减去均值），一个样本就变成了一个距离向量来描述与中心的距离（PCA的中心是所有样本的中心，LDA的中心是类内的或总的），用协方差矩阵来描述样本之间的聚or散的程度。

现在求一个投影向量 \(w\) ，考虑把这些距离向量投影到一维上面，协方差矩阵就变成 \(1\times 1\) 的了，可以理解为此时的这个值（不妨设为 \(J\) ）就描述样本间聚or散的程度的（显然嘛）。

所以最后的思路就是用 \(w\) 以及样本数据把 \(J\) 表示出来，然后求偏导就能做了，具体看后面吧。

1 PCA主成分分析

PCA的目标是找到一组新的坐标轴，以此方式将原始数据空间进行旋转。新的坐标轴（或者叫做主成分）的选择是基于数据方差最大化的准则。这意味着第一主成分的选择是沿着数据具有最大方差的方向，第二主成分选择沿着与第一主成分正交并具有第二大方差的方向，依此类推。

现在我们有一个n维的数据集，并且我们已经计算了其均值并进行了中心化处理（即减去均值，使新的数据集的均值为0）。

假设我们想要找到第一主成分。我们可以定义一个单位向量u（u的转置乘以u为1），使得所有数据点到u的投影的方差最大。方差可以定义为：

\[V=\sum (x_i\cdot u)^2 \]

这是所有点 \(x_i\) 在 u 上的投影的平方和，我们需要找到最大化V的u。这是一个优化问题，可以通过拉格朗日乘数法来解决，引入一个拉格朗日乘数λ，并将约束条件 \(u^T u = 1\) 带入。

\[L = \sum(x_i \cdot u)^2 - λ(u^Tu - 1) \]

我们需要找到最大化L的u，可以通过对u和λ分别求偏导，然后令它们等于零来解决。

\[\sum (x_i\cdot u)^2\\ =\sum u^Tx_i\times x_i^Tu \\ =u^T(\sum x_i\times x_i^T )u\\ =u^T Cov(X)u \]

这个优化问题要求我们找到一个向量u，使得在 \(u^T u = 1\) 满足约束条件下，最大化 \(u^T Cov(X)u\) 。\(Cov(X)\) 是数据的协方差矩阵，其中 \(X\) 是数据矩阵。

这个问题的解决方案是 \(Cov(X)\) 的特征向量，其对应的特征值是最大的。我们来看看这是如何工作的。

首先，我们计算 L 关于u和λ的偏导数，并将这些偏导数设为0。对于u，我们有：

\[∂L/∂u = 2 \times Cov(X) \times u - 2λu = 0 \]

这个公式可以整理为：

\[Cov(X) \times u = λu \]

此时 L 关于u的偏导就为0了，考虑我们要最大化的是 \(u^T Cov(X)u=\lambda u^Tu\) ，所以最大化特征值就是最大化的方差值。按照特征值从大到小的顺序排列特征向量，我们就得到了主成分。显然不同特征值对应的特征向量是正交的，满足我们要求。

2 LDA线性判别分析

对于线性判别分析（Linear Discriminant Analysis, LDA），我们可以定义类内散度（within-class scatter）和类间散度（between-class scatter）的公式如下：

假设我们有C个类别，每个类别c有 \(N_c\) 个样本。每个样本是一个n维向量，记为x。每个类别的均值向量记为 \(\mu_c\) ，所有样本的全局均值向量记为 \(μ\) 。

类内散度（Within-class scatter）:

类内散度矩阵 \(S_w\) 可以通过下式计算：

\[S_w =\sum_c \sum_i (x_i - μ_c)(x_i - μ_c)^T \]
类间散度（Between-class scatter）:

类间散度矩阵 \(S_b\) 可以通过下式计算：

\[S_b = \sum_c N_c (μ_c - μ)(μ_c - μ)^T \]

在进行LDA时，我们的目标是找到一个投影向量w，使得类间散度矩阵的迹最大化，同时类内散度矩阵的迹最小化。

\[\max \cfrac{ trace\ \ \sum_c\sum_i w^T(x_i - μ_c)(x_i - μ_c)^Tw }{trace\ \ \sum_c N_c w^T(μ_c - μ)(μ_c - μ)^Tw}\\ \]

因为投影过后的向量是一维的，所以trace可以去掉，等价于

\[\max J(w)=\cfrac{w^TS_bw}{w^TS_ww} \]

我们注意到上述优化问题有一个隐含的约束，即 w 的长度（或说范数）应为1。这是因为，如果不加这个约束，我们可以通过无限增大 w 的长度来无限增大J(w)的值，这显然是无意义的。因此，我们的优化问题实际上是带约束的，形式如下：

\[\max J(w)=\cfrac{w^TS_bw}{w^TS_ww}\\ w^Tw=1 \]

化成无约束问题：

\[L(w)=w^T(S_bS_w^{-1})w -\lambda(w^Tw-1) \]

然后对w和λ分别求偏导并设为0，我们可以得到如下的等式：

\[∂L/∂w = 2 (S_bS_w^{-1}) w - 2λw = 0 \\ ∂L/∂λ = w^Tw - 1 = 0\\ 即\ (S_bS_w^{-1}) w = λw \]

因为 \(\max J(w)=\cfrac{w^TS_bw}{w^TS_ww}=w^T(S_bS_w^{-1}) w=\lambda w^Tw\) ，所以现在要最大化 \(\lambda\) ，即求 \(S_bS_w^{-1}\) 最大的特征值对应的特征向量。若降维到 \(m\) 维，就是求前 \(m\) 大的特征值对应的特征向量。

posted @ 2023-06-10 00:47 缙云山车神阅读(67) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

缙云山车神

我会飞

推导：PCA主成分分析&LDA线性判别分析

推导：PCA主成分分析&LDA线性判别分析

1 PCA主成分分析

2 LDA线性判别分析

公告