【R统计】主成分分析1

习题:

9.1用主成分方法探讨城市工业主体结构。下表是某事工业部门十三个行业,分别是冶金(1)、电力(2)、煤炭(3)、化学(4)、机械(5)、建材(6)、森工(7)、食品(8)、纺织(9)、缝纫(10),皮革(11)、造纸(12)和文教艺术用品(13),八个指标分别是年末固定资产净值X1(万元)、职工人数X2(人)、工业总产值X3(万元)、全员劳动生产率X4(元/人年)、百元固定元值实现产值X5(元)、资金利率X6(%)、标准燃料消费量X7(吨)和能源利用效果X8(万元/吨)的数据。

(1)试用主成分分析方法确定8个指标的几个主成分,并对主成分进行解释;

(2)利用主成分得分对13个行业进行排序和分类。

原始数据(data.txt):

	X1	X2	X3	X4	X5	X6	X7	X8
1	90342	52455	101091	19272	82.0	16.1	197435	0.172
2	4903	1973	2035	10313	34.2	7.1	592077	0.003
3	6735	21139	3767	1780	36.1	8.2	726396	0.003
4	49454	36241	81557	22504	98.1	25.9	348226	0.985
5	139190	203505	215898	10609	93.2	12.6	139572	0.628
6	12215	16219	10351	6382	62.5	8.7	145818	0.066
7	2372	6572	8103	12329	184.4	22.2	20921	0.152
8	11062	23078	54935	23804	370.4	41.0	65486	0.263
9	17111	23907	52108	21796	221.5	21.5	63806	0.276
10	1206	3930	6126	15586	330.4	29.5	1840	0.437
11	2150	5704	6200	10870	184.2	12.0	8913	0.274
12	5251	6155	10383	16875	146.4	27.5	78796	0.151
13	14341	13203	19396	14691	94.6	17.8	6354	1.574

  

脚本

#p269 9.1
#p220

#读取数据
hangye<-read.table("data.txt");

#### 作主成分分析,并显示结果
hangye.pr<-princomp(hangye, cor=TRUE)
summary(hangye.pr, loadings=TRUE)
###输出
# Importance of components:
                          # Comp.1    Comp.2    Comp.3     Comp.4     Comp.5
# Standard deviation     1.7620762 1.7021873 0.9644768 0.80132532 0.55143824
# Proportion of Variance 0.3881141 0.3621802 0.1162769 0.08026528 0.03801052
# Cumulative Proportion  0.3881141 0.7502943 0.8665712 0.94683649 0.98484701
                           # Comp.6      Comp.7       Comp.8
# Standard deviation     0.29427497 0.179400062 0.0494143207
# Proportion of Variance 0.01082472 0.004023048 0.0003052219
# Cumulative Proportion  0.99567173 0.999694778 1.0000000000

# Loadings:
   # Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
# X1  0.477 -0.296 -0.104         0.184         0.758  0.245
# X2  0.473 -0.278 -0.163 -0.174 -0.305        -0.518  0.527
# X3  0.424 -0.378 -0.156                      -0.174 -0.781
# X4 -0.213 -0.451         0.516  0.539  0.288 -0.249  0.220
# X5 -0.388 -0.331 -0.321 -0.199 -0.450  0.582  0.233       
# X6 -0.352 -0.403 -0.145  0.279 -0.317 -0.714              
# X7  0.215  0.377 -0.140  0.758 -0.418  0.194              
# X8        -0.273  0.891        -0.322  0.122              
###解释
#前两个主成分解释了75%的差异
#Comp.1 反映的是“高固定资产、高职工人数、高工业产值、低全员生产率、低资金利率、低标准燃料消费”,看做规模因子
#Comp.2 反映的是“高标准燃料消费、低全员劳动生产率、低资金利税率”,看做燃料因子
#Comp.3 反映的是“高能源利用效果”,看做能源利用率因子


#### 作预测
predict(hangye.pr)

#### 作图,分类和排序
biplot(hangye.pr)

  

图片

解答:

(1)见脚本注释。

(2)见上图。可按前两轴排序。3 2 6可分为一组,属于能源消耗类重工业;11 7 12分为一组,为资源消耗类轻工业;1 4为化学工业;9 10 13为劳动力密集型制造业; 8 为食品业。

 

博文源代码和习题均来自于教材《统计建模与R软件》(ISBN:9787302143666,作者:薛毅)。

posted @ 2018-05-22 21:13  LeleLiu  阅读(3390)  评论(2编辑  收藏  举报