数学 - 回归分析 - 第 4 章 违背基本假设的情况 - 4.1 异方差性产生的背景与原因

在回归模型的基本假设中,假定随机误差项 \(\varepsilon_1\)\(\varepsilon_2\)\(\cdots\)\(\varepsilon_n\) 具有相同的方差,独立或不相关。

4.1 异方差性产生的原因与背景

4.1.1 异方差性产生的原因

实际问题错综复杂,在对实际问题建立回归分析模型时,经常会出现某一因素或某些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同的方差。

比如在研究城镇居民收入与购买量的关系时,我们知道居民收入与消费水平有密切的关系,用 \(x_i\) 表示第 \(i\) 户的收入量,\(y_i\) 表示第 \(i\) 户的消费额,一个简单的消费模型是

\[y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \quad i=1,\cdots,n \]

在此问题中,可以很明显地看出,随机误差项的方差 \(\varepsilon\) 在不同的家庭中是不同的,由于各户的收入、消费理念和消费习惯不同,通常存在明显的异方差性。一般情况下:

  • 低收入家庭购买差异性比较小,大多购买生活必需品。

  • 高收入家庭购买差异性大。高档消费品多,房子、汽车选择余地大,这对导致一段时间内实际购买金额的差异很大。

利用平均数作为样本数据,也容易出现异方差性。鉴于正态分布的普遍性,许多变量之间的关系都服从正态分布。例如,不同收入水平组的人数随收入增加呈正态分布。当以不同收入组的人均数据作为样本时,由于每组中人数不同,观测误差也不同。一般来说,人数多的收入组的人均数据相对人数少的收入组的人均数据具有更高的准确性。因此,由不同的观测误差也会引起异方差性。

总之,引起异方差性的原因很多,但当样本数据作为横截面数据时容易出现异方差性。

4.1.2 异方差性带来的问题

当一个回归问题存在异方差性时,如果仍用普通最小二乘估计未知参数,将导致不良后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计的有效性被破坏了。

当存在异方差性时,参数向量 \(\hat{\bm{\beta}}\) 的方差大于在同方差条件下的方差,如果用普通最小二乘法估计参数,将出现低估 \(\hat{\bm{\beta}}\) 的真实方差的情况,进一步将导致高估回归系数的 \(t\) 检验值,可能使本来不显著的某些回归系数变成显著的。因此异方差性会影响回归方程的应用效果。

当存在异方差性时,普通最小二乘估计存在以下问题:

  • 参数估计值是无偏估计,但不是最小方差线性无偏估计。

  • 参数的显著性检验失效。

  • 回归方程的应用效果不理想。

4.1.3 异方差性的检验

关于异方差性,统计学家进行了大量的研究,提出的诊断方法已有 \(10\) 多种,但没有一个公认的最优方法。介绍残差分析法与等级相关系数法这两种常用方法。

(1) 残差图分析法

残差图分析法是一种直观、方便的分析方法。它以残差 \(e_i\) 为纵坐标,以其他适宜的变量为横坐标,画出散点图。常用的横坐标有三种选择:

  • 以拟合值 \(\hat{y}\) 为横坐标。

  • \(x_i\) \((i=1,\cdots,p)\) 为横坐标。

  • 以观测时间或序号为横坐标。

如果回归模型适合样本数据,那么残差 \(e_i\) 应反映随机误差项 \(\varepsilon\) 所假定的性质,因此可以根据残差图来判断回归模型是否满足某些性质。

一般情况下,当回归模型满足所有假定时,残差图上的 \(n\) 个点的散布应该是随机的,无任何规律。如果回归模型存在异方差性,残差图上的点的散布会呈现出一定的趋势。可看 \(2.5\) 残差分析一节中展示的图。

(2) 等级相关系数法

等级相关系数法又称斯皮尔曼 ( \(\text{Spearman}\) ) 检验。是一种应用较广泛的方法。进行等级相关系数检验通常有三个步骤:

  1. \(y\) 关于 \(x\) 的普通最小二乘估计,求出 \(\varepsilon_i\) 的估计值,即 \(e_i\) 的值。

  2. \(e_i\) 的绝对值,即 \(|e_i|\),把 \(x_i\)\(|e_i|\) 按递增或递减的次序排列后分成等级。设 \(n\) 为样本量,\(d_i\) 为对应于 \(x_i\)\(|e_i|\) 的等级的差数。按式 \((4.1.1)\) 计算出等级相关系数

\[r_s = 1 - \frac{6}{n(n^2 - 1)} \sum_{i=1}^n d_i^2 \tag{4.1.1} \]

  1. 做等级相关系数的显著性检验。在 \(n>8\) 的情况下,用式 \((4.1.2)\) 表示的检验统计量对样本等级相关系数 \(r_s\) 进行 \(t\) 检验。如果 \(|t| \leqslant t_{\alpha/2}(n-2)\),可以认为异方差性问题不存在;如果 \(|t|>t_{\alpha/2}(n-2)\),说明 \(x_i\)\(|e_i|\) 之间存在系统关系,异方差性问题存在。

\[t = \frac{\sqrt{n-2} \, r_s}{\sqrt{1-r_s^2}} \tag{4.1.2} \]

计算残差绝对值 \(|e_i|\) 与自变量 \(x_i\) 的相关性时采用 \(\text{Spearman}\) 等级相关系数,而不采用 \(\text{Pearson}\) 简单相关系数,这是因为等级相关系数可以反映非线性相关的情况,而简单相关系数不能如实地反映非线性相关的情况。

对于一组数据 \((x_i,y_i)\) 严格满足 \(y_i = x_i^2\),两者具有完全的曲线相关关系。在某一组数据下,容易计算出 \(y\)\(x\) 的简单相关系数为 \(r = 0.9746\),而 \(y\)\(x\) 的等级相关系数为 \(r_s = 1\),与简单相关系数相比,等级相关系数可以更准确地反映非线性相关的情况。等级相关系数可以如实地反映具有单调递增或单调递减趋势的变量间的相关性。而简单相关系数只适宜衡量具有直线趋势的变量间的关系。

posted on 2022-03-27 23:39  Black_x  阅读(1060)  评论(0)    收藏  举报