数学 - 回归分析 - 第 6 章 多重共线性的情形及其处理 - 6.4 消除多重共线性的方法
6.4 消除多重共线性的方法
当通过某种检验发现解释变量中存在严重的多重共线性时,我们就要设法消除这种共线性的影响。消除多重共线性的方法很多,常用的有以下几种。
6.4.1 剔除一些不重要的解释变量
通常在实际问题的建模中,由于我们认识的局限性,容易考虑过多的自变量,当涉及的自变量较多时,大多数回归方程都受到多重共线性的影响。这时,最常用的办法是首先用第 \(5\) 章介绍的方法做自变量的选元,舍去一些自变量。
当回归方程中的全部自变量都通过显著性检验后,若回归方程中仍然存在严重的多重共线性,有几个变量的方差扩大因子大于 \(10\),我们可把方差扩大因子最大者所对应的自变量首先剔除,再重新建立回归方程,如果仍然存在严重的多重共线性,则再继续剔除方差扩大因子最大者所对应的自变量,直到回归方程中不再存在严重的多重共线性为止。
有时根据所研究的问题的需要,也可以首先剔除方差扩大因子最大者所对应的自变量,依次剔除,直到消除多重共线性为止,然后再做自变量的选元。或者根据所研究的问题的实际意义,来决定保留或剔除自变量。
总之,在选择回归模型时,可以将回归系数的显著性检验、**方差扩大因子*以及自变量的经济含义结合起来考虑,以引进或剔除变量。
6.4.2 增大样本量
建立一个实际问题的回归模型,如果所采集的样本数据太少,也容易产生多重共线性。譬如,我们的问题涉及两个自变量 \(x_1\) 和 \(x_2\),假设 \(x_1\) 和 \(x_2\) 都已经中心化。由式 \((6.2.1)\) 可知
式中,\(r_{12}\) 为 \(x_1\) 和 \(x_2\) 的相关系数。可以看到,在 \(r_{12}\) 固定不变时,若样本量 \(n\) 增大,\(L_{11}\) 和 \(L_{22}\) 都会增大,两个回归系数估计值的方差均可减小,从而减弱多重共线性对回归方程的影响。因此,增大样本量也是消除多重共线性的一个途径。
在实践中,当我们所选的变量个数接近样本量 \(n\) 时,自变量间就容易产生共线性。所以在应用回归分析研究经济问题时,要尽可能使样本量 \(n\) 远大于自变量个数 \(p\)。
但有时,增大样本量的方法在实际问题中不现实。此外,增加了样本数据,也可能使新数据距离原来样本数据的平均值较大,会产生一些新的问题,使模型拟合较差。
6.4.3 回归系数的有偏估计
消除多重共线性对回归模型的影响是统计学家关注的热点课题之一,除以上方法被人们应用外,统计学家还致力于改进古典的最小二乘法,提出以采用有偏估计为代价来提高估计量稳定性的方法,如岭回归法、主成分法、偏最小二乘法等。
浙公网安备 33010602011771号