可决系数R^2和方差膨胀因子VIF

然而很多时候，被筛选的特征在模型上线的预测效果并不理想，究其原因可能是由于特征筛选的偏差。

但还有一个显著的因素，就是选取特征之间之间可能存在高度的多重共线性，导致模型对测试集预测能力不佳。

为了在筛选特征之初就避免陷入这样的误区。介绍一种VIF（方差膨胀检验）方法，来对特征之间的线性相关关系进行检验，从而选取到独立性更好的特征，增强模型的解释能力。

1.可决系数R^2

1.1什么是可决系数

可决系数，亦称测定系数、决定系数、可决指数。

与复相关系数类似的，表示一个随机变量与多个随机变量关系的数字特征，用来反映回归模式说明因变量变化可靠程度的一个统计指标，一般用符号“R”表示，

可定义为已被模式中全部自变量说明的自变量的变差对自变量总变差的比值。

1.2总变异的分割

一个特定数值对于其平均值的偏离，称为离差，而一变量的各数值对于其平均值的偏离，称为变异。通常用离差平方和来描述变异程度。离差平方和又简称平方和(Sum of square)。在研究单变量的离中趋势描述时，我们已经接触了离差平方和的概念，样本标准差的定义公式中就直接使用了上述概念。平方和被相应的自由度去除，得到平均平方，简称为均方(Mean square)。样本标准差就是被自由度(n-1)所平均的x对于离差均方的算术平方根。下面我们将应用平方的概念去开发测度一个回归方程拟合协变关系效果的量数。

先结合图1分析一下在因变量y倚自变量x回归前提下y值的离差。

y值对其平均数的离差可以看作是由两部分合成的，一是y的回归拟合值对平均数的离差()，另一是y值对于拟合值的离差()。

前者呈线性变化，在时，=0，x取值越偏离，这一离差就越大，存在着这样的函数关系：

这一离差完全是由y倚x的回归关系决定的，因而称为已解释离差(Explained deviation)。

后者呈随机变化，与y倚x的回归关系无关，因而称为未解释离差(Unexplained deviation)。

总离差与已解释离差、未解释离差的关系写成公式是：

。

图1

总离差的平方和，简称总平方和，用SST表示，又称作总变差(Total variation)。

已解释离差的平方和，简称回归平方和，用SSR表示，又称作已解释变差(Explained variation)。

未解释离差的平方和，简称误差平方和，用SSE表示，又称作未解释变差(Unexplained variation)。

可以证明，由总离差的分解公式能推出总变差的分解公式：

，或：SST=SSR+SSE。

将上式两边都除以，得：已解释变差/总变量 +未解释变差/总变差=1，即

这样我们就把在绝对数意义上对总变差的分割，改换成在相对数意义上对总变差的分割，这对于研究回归方程的拟合效果很有帮助。

1.3样本可决系数

从公式(1)看到，若以总变差为基数，相对数表示的是回归关系已经解释的y值变异在其总变异中所占的比率，而相对数则表示回归关系不能解释的y值变异在总变异中所占的比率。

前者正是我们要寻求的测度回归方程拟合y对x的协变关系效果的量数，称为可决系数(Coefficient of determination)。

产生于样本数据的可决系数是样本可决系数，用r²表示。

在总体回归分析中，相对于样本可决系数的是总体可决系数，用表示。

因此，样本可决系数的定义公式是：

1.4相关系数与可决系数的关系

由可以推导到所以存在着这样的关系：可决系数是相关系数的二次幂。

因此，也可以在求得可决系数的基础上计算相关系数，方法是将可决系数开平方，至于平方根的符号，则取与回归方程斜率b相同的符号。正是因为存在这样的关系，我们用r²作为可决系数的符号，而没有另用别的字母。

即然r和r²两者问存有这样的联系，那么它们的描述分析作用是否相同呢?我们认为，尽管两者对变量间协变关系的解释有相通的一面，但是两者间的区别也是不容忽视的。

首先，可决系数是在拟合回归方程后进一步评价它的解释作用，而回归分析有其具体目的和假定前提。相关系数直接用于相关分析，它只描述变量间协变关系的密切程度，而不问哪个是自变量，哪个是因变量，相关分析也有3条假设前提：

(1) X和Y均为随机变量。

(2) X和Y均服从正态分布，两者不必相互独立。

(3) 对于X所有取值，Y值的标准差都相等；对于Y所有取值，X值的标准差也都相等。

这样看来，可决系数和相关系数所描述的问题性质不尽相同。

其次，可决系数取已解释变差对总变差的比率形式，在运算上有直接的解释意义。相关系数是沿交叉乘积和——协方差——相关系数的思想开发出来的，其最终公式形式不好作直接的解释。尽管如此，在许多应用中，如果两者都可以出现，我们还是更多地注意到r 值。

1.5总体可决系数

总体可决系数是在总体中关于Y总变异中总体回归方程已经解释的变异所占比重的描述量数。它用下式表示

在的定义公式中，是围绕总体回归直线的方差，是围绕总体平均数的方差。

作为总体参数，通常视为未知的，有待于用样本统计量去估计。将和的无偏估计量分别代入上式，即得到估计量的公式

不难发现，公式（2）与公式（4）略有不同，前者采用的是平方和比率的形式，而后者采用的是均方和比率的形式。

称为经调整样本可决系数(Adjusted coefficient of determination)，它用于对总体可决系数进行点估计。

经调整可决系数平抑了方程中自变量数目的对解释作用的夸大，尤其在多元回归分析中，因为对同一样本k个自变量的回归方程总比k-1个自变量的回归方程求得已解释变差小，

经调整的可决系数在k个自变量的方程中已解释变差除以(n-k-1)，而在(k-1)个自变量的方程中则除以(n-k-2)。

2方差膨胀因子VIF

所谓VIF方法，计算难度并不高。在线性回归方法里，应用最广泛的就是最小二乘法（OLS），只不过我们对每个因子，用其他Ｎ个因子进行回归解释。

　　其中有一个检验模型解释能力的检验统计指标为R^2（样本可决系数），R^2的大小决定了解释变量对因变量的解释能力。

而为了检验因子之间的线性相关关系，我们可以通过OLS对单一因子和解释因子进行回归，然后如果其R^2较小，说明此因子被其他因子解释程度较低，线性相关程度较低。

　　注：之所以不使用协方差计算相关性是由于协方差难以应用在多元线性相关情况下。给出VIF计算方法：

$VIF_i=\frac{1}{1-R_i^2}$

其中， $R_i$ 为第i个变量 $X_i$ 与其他全部变量 $X_j$ ( $i=1,2,...,k;$ $i \ne j$ )的复相关系数，所谓复相关系数即可决系数 $R^2$ 的算术平方根，也即拟合优度的算术平方根。不过这个可决系数 $R_i^2$ 是指用 $X_i$ 做因变量，对其他全部 $X_j$ ( $i=1,2,...,k;$ $i \ne j$ )做一个新的回归以后得到的可决系数。