统计
1.聚类分析
若数据量纲差别较大,是否进行标准化处理取决于结果好坏,如果结果不符合预期则进行标准化处理,标准化方法一般选择Z得分
聚类方法最好的就是组间连接,如果倾向于分类个数比较均匀可以选择ward法
(1)K-means Cluster过程
§非系统聚类
§方法特点
要求已知类别数
可人为指定初始位置节省运算时间
样本量过大时有必要考虑
只能使用连续性变量
(2)Hierarchical Cluster过程
§属于系统聚类法的一种,其聚类过程可以用树形结构(treelike structure)来描绘的方法
§特点
一旦记录/变量被划定类别,其分类结果就不会再进行更改
可以对变量或记录进行聚类
变量可以为连续或分类变量
提供的距离测量方法非常丰富
运算速度较慢
§对于样本聚类使用默认的平方欧氏距离,对于变量聚类改为皮尔逊相关性
§共线性问题
对记录聚类结果有较大的影响
相当于某个变量在聚类中的权重大于其它变量
最好先进行预处理
§分类数
从实用角度讲,2~8类比较合适
§专业意义
一定要结合专业知识进行分析
§其他方面
§聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析
§聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响
§不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解
2.主成分分析,因子分析
主成分分析
中间手段
§方法用途
主成分评价:当进行多指标的综合评价时,应用主成分方法将多指标中的信息集中为若干个主成分,然后加权求和,得到综合评价指数。
主成分回归:通过对存在共线性的自变量进行主成分分析,从而在提取多数信息的同时解决共线性问题
因子分析
适用条件
§样本量
§样本量与变量数的比例应在5:1以上
§总样本量不得少于100,而且原则上越大越好(弹性)
§各变量间必须有相关性
§KMO统计量:0.9最佳,0.7尚可,0.6很差,0.5以下放弃
§Bartlett’s球形检验
§这些条件均是为了保证能够寻找出内在结构
分析步骤
判断是否需要进行因子分析,数据是否符合要求
进行分析,按一定标准确定提取的因子数目
如果进行的是主成分分析,则将主成分存为新变量用于继续分析,步骤到此结束
如果进行的是因子分析,则考察因子的可解释性,并在必要时进行因子旋转,以寻求最佳解释方式
如有必要,可计算出因子得分等中间指标供进一步分析使用
公因子数量的确定
§主成分的累积贡献率:80~85%以上
§特征根:大于1(可以更改)
§综合判断
§因子分析时更重要的是因子的可解释性
§必要时可保留小于1的因子
§碎石图可以帮助确定因子数量
Email: jingwangli@outlook.com

浙公网安备 33010602011771号