一个主成分回归中隐藏的思维陷阱

一个主成分回归中隐藏的思维陷阱

一个主成分回归中隐藏的思维陷阱

最近在对某些经济数据应用主成分回归时遇到一件怪事：变量 \(X_1\)、\(X_2\) 和 \(X_3\) 做 \(Y\) 的解释变量，回归系数是显著的，提取 \(X_1\)、\(X_2\) 和 \(X_3\) 的首个主成分 \(P_1\)，\(P_1\) 做 \(Y\) 的解释变量却是不显著的，咄咄怪事。

事后想明白了，这其实是应用主成分回归的过程中隐藏的一个思维陷阱。

应用主成分回归的常规流程

根据业务知识或者回归分析找到因变量 \(Y\) 的若干解释变量 \(X_1,X_2, \dots\)
提取解释变量排名靠前的少数主成分 \(P_1,P_2,\dots\)
用 \(P_1,P_2,\dots\) 做解释变量，对 \(Y\) 应用回归分析

上述三步便是应用主成分回归的常规流程，但是其中隐藏里一个思维陷阱，即 \(Y\) 必然可以和排名靠前的少数主成分建立起回归关系，这其实是一个先入为主的错误观念。

事实上，\(Y\) 可能只能和排名靠后的主成分建立起回归关系。

构造一个例子

\(P_1\)、\(P_2\) 和 \(P_3\) 是三个独立的随机变量，方差依次降低。\(X_1\)、\(X_2\) 和 \(X_3\) 均是 \(P_1\)、\(P_2\) 和 \(P_3\) 的线性组合：

\[\begin{bmatrix} X_1\\ X_2\\ X_3 \end{bmatrix} = A \times \begin{bmatrix} P_1\\ P_2\\ P_3 \end{bmatrix} \]

其中 \(A\) 是可逆的矩阵。

如果对 \(X_1\)、\(X_2\) 和 \(X_3\) 做主成分分析的话，得到的主成分就是 \(P_1\)、\(P_2\) 和 \(P_3\)。

如果 \(Y = P_3 + \varepsilon\)，\(\varepsilon\) 和 \(P_1\)、\(P_2\) 和 \(P_3\) 独立。很显然，\(X_1\)、\(X_2\) 和 \(X_3\) 和 \(Y\) 可以建立起回归关系，但是 \(Y\) 和第一个主成分 \(P_1\) 是不存在任何关系的。

应对办法

为了避免跌落陷阱，对提取出来的所有主成分做“逐步回归”可能是一个不错的办法，由于主成分之间的正交性，逐步回归的结果应该会非常稳健。

posted @ 2020-01-09 13:42 xuruilong100 阅读(492) 评论(0) 收藏举报

刷新页面返回顶部