LDA（Linear Discriminant Analysis）（二）

4、实例

　　将3维空间上的球体样本点投影到二维上，W₁相比W₂能够获得更好的分类效果。

　　PCA与LDA的降维对比：

　　PCA选择样本点投影具有最大方差的方向，LDA选择分类性能最好的方向。

　　LDA既然叫做线性判别分析，应该具有一定的预测功能，比如新来一个样例x，如何确定其类别？

　　拿二值分类来说，我们可以将其投影到直线上，得到y，然后看看y 是否在超过某个阈值y₀，超过是一类，否则是另一类，而怎么寻找这个y₀呢？

由 y = w^Tx，根据中心极限定理，独立同分布的随机变量和符合高斯分布，然后利用极大似然估计求P(y|C_i)，然后用决策理论里的公式来寻找最佳的y₀。（或参照下面的7（一些问题）来得到简单的答案）

5、使用LDA的一些限制

　　1) LDA至多可以生成C-1维子空间；

　　LDA降维后的维度区间在[1,C-1]，与原始特征数n无关，对于二值分类，最多投影到1维。

　　2) LDA不适合对高斯分布样本进行降维；

　　上图中红色区域表示一类样本，蓝色区域表示另一类，由于是2类，所以最多投影到1维上。不管在直线上怎么投影，都很难使红色点和蓝色点内部凝聚，类间分类。

　　3) LDA在样本分类信息依赖方差而不是均值，效果不好；

　　上图中，样本点依靠方差信息进行分类，而不是均值信息。LDA不能有效分类，因为LDA过度依靠均值信息。

　　4) LDA可能过度拟合数据。

6、LDA的一些变种

　　1) 非参数LDA

　　非参数LDA使用本地信息和K临近样本点来计算S_B，使得S_B是全秩的，这样我们可以抽取多余C-1个特征向量。而且投影后分离效果更好。

　　2) 正交LDA

　　先找到最佳的特征向量，然后找与这个特征向量正交且最大化fisher条件的向量。这种方法也能摆脱C-1的限制

　　3) 一般化LDA

　　引入了贝叶斯风险等理论

　　4) 核函数LDA

　　将特征x->Φ(x)，使用核函数来计算。

7、一些问题

　　上面在多值分类中使用的

　　是带权重的各类样本中心到全样本中心的散列矩阵。如果C=2（也就是二值分类时）套用这个公式，不能够得出在二值分类中使用的S_B。

因此二值分类和多值分类时求得的S_B会不同，而S_w意义是一致的。

　　对于二值分类问题，令人惊奇的是最小二乘法和Fisher线性判别分析是一致的。

　　下面我们证明这个结论，并且给出上面提出的y₀值的选取问题。

　　回顾之前的线性回归，给定N个d维特征的训练样本x⁽ⁱ⁾{x₁⁽ⁱ⁾,x₂⁽ⁱ⁾,...,x_d⁽ⁱ⁾}(i :1->N)，每个x⁽ⁱ⁾对于一个类标签 y⁽ⁱ⁾。之前令y=0表示一类，y=1表示另一类，现在为了证明最小二乘法和LDA的关系，我们需要做一些改变：（将0/1值做了替换）

　　我们列出最小二乘法公式：

　　　　　　　　　，（w和w₀是拟合权重参数）

　　分别对w₀和w求导得：

　 .......................(1)

......................(2)

　　　对(1)展开可以得到：

　　消元后，得：

　　对(2)展开后和下面的公式等价：

　　，其中S_w和S_B与二值分类中的公式一样。

　　由于 S_Bw = (μ₁ - μ₂)*λ_w因此，最后结果仍然是：

　　这个过程从几何意义上去理解也就是变形后的线性回归（将类标签重新定义），线性回归后的直线方向就是二值分类中LDA求得的直线方向w。

posted on 2014-10-21 21:09 djmjsj 阅读(315) 评论(0) 收藏举报

刷新页面返回顶部