飞鸟各投林

导航

机器学习第4周---炼数成金-----降维技术

主成分分析

Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法
通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目
可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析
成分的保留:Kaiser主张(1960)将特征值小于1的成分放弃只保留特征值大于1的成分
如果能用不超过3-5个成分就能解释变异的80%,就算是成功

 

通过对原始变量进行线性组合,得到优化的指标
把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)
基本思想:设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标

 

主成分分析的直观几何意义

主成分分析的数学模型

主成分分析思想最终可以通过矩阵写法转变为求解线性代数问题

转化为将协方差矩阵对角化的问题(求解特征值)

 

 

 

因子分析

降维的一种方法,是主成分分析的推广和发展
是用于分析隐藏在表面现象背后的因子作用的统计模型。试图用最少个数的不可测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量
例子:各科学习成绩(数学能力,语言能力,运劢能力等)
例子:生活满意度(工作满意度,家庭满意度)
例子:薛毅书P522

 

因子分析的主要用途

减少分析变量个数
通过对变量间相关关系的探测,将原始变量分组,即将相关性高的变量分为一组,用共性因子来代替该变量
使问题背后的业务因素的意义更加清晰呈现

 

与主成分分析的区别

主成分分析侧重“变异量”,通过转换原始变量为新的组合变量使到数据的“变异量”最大,从而能把样本个体之间的差异最大化,

但得出来的主成分往往从业务场景的角度难以解释
因子分析更重视相关变量的“共变异量”,组合的是相关性较强的原始变量

目的是找到在背后起作用的少量关键因子,因子分析的结果往往更容易用业务知识去加以解释

 

因子分析使用了复杂的数学手段

比主成分分析更加复杂的数学模型
求解模型的方法:主成分法,主因子法,极大似然法
结果还可以通过因子旋转,使到业务意义更加明显

 

极大似然法

似然函数
极大似然函数
算法描述(薛毅书p533)

 

 

主成分法

通过样本估算期望和协方差阵
求协方差阵的特征值和特征向量
省去特征值较小的部分,求出A、D
程序
例子

 

主因子法

首先对变量标准化
给出m和特殊方差的估计(初始)值
求出简约相关阵R*(p阶方阵)
计算R*的特征值和特征向量,取其前m个,略去其它部分
求出A*和D*,再迭代计算

 

posted on 2016-04-23 16:44  飞鸟各投林  阅读(325)  评论(0编辑  收藏  举报