R2: 已解释和未解释的方差
估计值的方差与总体方差之间的差异就是回归方程对方差的解释率。试举一例,如图 1,身高与体重的回归线显示身高与体重之间呈正相关,Mr. Y身高76英寸体重220磅(图 1中
插图.cdr的红点),他与体重平均值的总离差(Y-Y)是220-155=65磅。这个总离差可以被分解为两部分:一部分是Y与回归线之间的离差(Y-Y’),等于30;另一部分是预测值与体重平均值的离差(Y’-Y),等于35。这两部分之和加起来就是65总的离差。

图 1
一般地,(Y-Y’)+(Y’-Y)=(Y-Y),第一部分是(Y-Y’),这是预测的误差,有时我们也把它看成是方差的“未解释”部分,反之,第二部分(Y-Y’)则是“已解释”部分。对Mr. Y来说,他的身高“解释”(或预测)了他的部分体重——我们预期他的体重高于平均水平,但是他甚至比他的身高所预期的体重还要重;这个额外的体重就是身高没法解释的,所以称为“未解释值”。
如果所有这一个个的“未解释值”被平方并加起来(Y-Y’)2,那么我们将得到未解释的平方和SS(Sum of Square),将这个未解释的SS除以N就得到了未解释的方差(unexplained variance)。同样地,我们可以将基于所有的(Y’-Y)平方而得到的已解释的SS除以N来求得已解释的方差量。已解释和未解释的方差加总起来等于总的方差。
如何评估回归线究竟在以一个变量预测另一个变量的工作中做得怎么样,可以将已解释的方差除以总方差,这个比值就叫做决定系数(Coefficient of determination),它代表了总方差被预测变量所解释或决定的比率。决定系数等于r2(Squared Pearson’s Correlation Coeficient),r2也称为“方差解释率”。

浙公网安备 33010602011771号