计量经济学(经济学院开课)备考纲要

计量经济学(经院)复习纲要

绪论

建立经典计量经济学模型的步骤:理论模型的设计、样本数据的收集、模型参数的估计、模型的检验。

理论模型设计包含的要点:确定模型所包含的变量(被解释变量、变量时间),确定模型的数学形式,拟定理论模型中待估参数的理论期望值。

样本数据的分类:时间序列数据、截面数据、面板数据。

样本数据的质量:完整性、准确性(数据是准确的,数据是模型准确需要的)、可比性、一致性。

模型的检验:经济意义检验、统计检验、计量经济学检验、模型预测检验。

计量经济学模型成功的三要素:理论、方法和数据。

回归分析:研究一个变量关于另一个(些)变量的依赖关系的计算方法和理论。其目的在于根据后者的已知或设定值,去估计、预测前者的均值。前一个变量称为被解释变量,后一个变量称为解释变量。

为什么引入随机干扰项:代表未知影响因素、代表残缺数据、代表众多细小影响因素、代表数据观测误差、代表模型设定误差、变量的内在随机性。

一元线性回归计算

区分四个概念:

  • 总体回归线:估计给定\(X\)时的条件期望。

    \[f(X)=E(Y|X)=\beta_0+\beta_1X. \]

  • 总体回归模型:用于描述每一个个体回归模型,加入了随机误差项。

    \[Y_i=\beta_0+\beta_1X_i+\mu_i. \]

  • 样本回归线:由样本计算出的用于估计总体回归线的函数。

    \[\hat{Y}=\hat\beta_0+\hat\beta_1X. \]

  • 样本回归模型:用于解释每一个样本的样本回归模型,加入了残差。

    \[Y_i=\hat\beta_0+\hat\beta_1X+e_i. \]

模型估计

经典假设(前四条称高斯-马尔科夫假设):

  1. 回归模型是正确设定的。
  2. 解释变量\(X\)在所抽取的样本中具有变异性,样本方差趋于非零常数。
  3. 对给定\(X\)的任何值,随机干扰项零均值:\(\mathrm{E}(\mu_i|X)=0\)
  4. 对给定\(X\)的任何值,随机干扰项同方差、序列不相关:\(\mathrm{Var}(\mu_i|X)=\sigma^2\)\(\mathrm{Cov}(\mu_i,\mu_j|X)=0\)
  5. 随机干扰项服从零均值、同方差的正态分布:\(\mu_i|X\sim N(0,\sigma^2)\)

正规方程组:

\[\left\{\begin{array}{} \sum e_i=\sum (Y_i-\hat\beta_0-\hat\beta_1X_i)=0;\\ \sum e_iX_i=\sum X_i(Y_i-\hat\beta_0-\hat\beta_1X_i)=0. \end{array}\right. \]

估计量的离差形式与样本回归函数的离差形式:

\[\hat\beta_1=\frac{\sum x_iy_i}{\sum x_i^2},\quad \hat\beta_0=\bar{Y}-\hat\beta_1\bar{X};\\ \hat y_i=\hat\beta_1x_i. \]

矩估计时的总体矩条件与对应的样本矩条件(矩条件将在工具变量法中发挥作用):

\[\mathrm{E}(\mu_i)=0\Rightarrow \frac{1}{n}\sum(Y_i-\hat\beta_0-\hat\beta_1X_i)=0;\\ \mathrm{E}(X_i\mu_i)=0\Rightarrow \frac{1}{n}\sum(Y_i-\hat\beta_0-\hat\beta_1X_i)X_i=0. \]

最小二乘估计量具有线性性,无偏性,有效性(最小方差性)与大样本下的一致性。下面的结果将在预测问题中起到作用。

\[\hat\beta_1=\beta_1+\sum \frac{ x_i}{\sum x_i^2}\mu_i,\quad \mathrm{Var}(\hat\beta_1)=\frac{\sigma^2}{\sum x_i^2};\\ \hat\beta_0=\beta_0+\sum\left(\frac{1}{n}-\frac{x_i\bar{X}}{\sum x_i^2} \right)\mu_i,\quad \mathrm{Var}(\hat\beta_0)=\frac{\sum X_i^2}{n\sum x_i^2}\sigma^2;\\ \mathrm{Cov}(\hat\beta_0,\hat\beta_1)=-\frac{\bar{X}\sigma^2}{\sum x_i^2}. \]

随机干扰项的方差估计,这是假设检验、预测置信区间的基础:

\[\hat\sigma^2=\frac{\sum e_i^2}{n-2},\quad S_{\hat\beta_1}=\sqrt{\frac{\hat\sigma^2}{\sum x_i^2}}. \]

检验与预测

平方和分解式:在最小二乘估计下,有

\[\mathrm{TSS}=\mathrm{RSS}+\mathrm{ESS}. \]

  • \(\mathrm{TSS}\):总离差平方和(total sum square),即\(\sum y_i^2\),其自由度为\(n-1\)\(n\)是样本数。
  • \(\mathrm{RSS}\):残差平方和(residual sum square),即\(\sum e_i^2\),其自由度为\(n-k-1\)\(k\)为变量数,一元线性回归中\(k=1\)
  • \(\mathrm{ESS}\):回归平方和(explained sum square),即\(\sum \hat y_i^2\),其自由度为\(k\)\(k\)为变量数。

拟合优度:

\[R^2=\frac{\mathrm{ESS}}{\mathrm{TSS}}=\frac{\mathrm{TSS}-\mathrm{RSS}}{\mathrm{TSS}}. \]

用拟合优度的观点来看,拟合优度反映拟合的优良程度,故拟合得越好\(R^2\)越大。为计算,有

\[R^2=\frac{\sum \hat y_i^2}{\sum y_i^2}=\frac{\hat\beta_1^2\sum x_i^2}{\sum y_i^2}. \]

\(t\)检验:一元线性回归中的\(t\)检验基于变量服从的分布\(\hat\beta_1\sim N(\beta_1,\dfrac{\sigma^2}{\sum x_i^2})\),构造检验\(H_0:\beta_1=0\),对未知的\(\sigma^2\),用服从\(\chi^2(n-2)\)分布的\(\hat\sigma^2\)替代,故检验统计量为

\[t=\frac{\hat\beta_1}{\sqrt{\dfrac{\hat\sigma^2}{\sum x_i^2}}}=\frac{\hat\beta_1}{S_{\hat\beta_1}}\sim t(n-2). \]

置信区间:\(\hat\beta_1\pm t_{\frac{\alpha}{2}}(n-2)\cdot S_{\hat\beta_1}\)

对条件均值的预测:\(\hat Y_0=\hat \beta_0+\hat \beta_1X_0\)

\[\mathrm{E}(\hat Y_0)=\beta_0+\beta_1X_0,\\ \begin{aligned} \mathrm{Var}(\hat{Y}_0)&=\mathrm{Var}(\hat\beta_0)+X_0^2\mathrm{Var}(\hat\beta_1)+2X_0\mathrm{Cov}(\hat\beta_0,\hat\beta_1)\\ &=\left(\frac{\sum X_i^2}{n\sum x_i^2}+\frac{X_0^2}{\sum x_i^2}-\frac{2X_0\bar{X}}{\sum x_i^2}\right)\sigma^2\\ &=\left(\frac{\sum x_i^2}{n}+\bar{X}^2+X_0^2-2X_0\bar{X} \right)\frac{\sigma^2}{\sum x_i^2}\\ &=\left[\frac{1}{n}+\frac{(\bar{X}-X_0)^2}{\sum x_i^2} \right]\sigma^2. \end{aligned} \]

对个别值的预测:\(Y_0=\beta_0+\beta_1X_0+\mu\),从而它是无偏估计,且

\[\mathrm{Var}(Y_0)=\left[1+\frac{1}{n}+\frac{(\bar{X}-X_0)^2}{\sum x_i^2} \right]\sigma^2. \]

多元线性回归模型

总体回归模型中包含了\(n\)个方程,从而\(Y,\mu\)\(n\)维向量,\(\beta\)\(k+1\)维向量,\(X\)\((k+1)\times n\)矩阵。

\[Y=X\beta+\mu, \]

参数估计与预测

基本假设:

  1. 回归模型是正确设定的。

  2. \(X_1,\cdots,X_k\)在抽取的变量中具有变异性,且不存在完全的多重共线性。

    \[\mathrm{rank}(X)=k+1. \]

  3. 随机干扰项条件零均值。

    \[\mathrm{E}(\mu|X)=0. \]

  4. 随机干扰项条件同方差、序列不相关。

    \[\mathrm{Var}(\mu|X)=\sigma^2I_n. \]

  5. 随机干扰项服从条件正态分布。

    \[\mu|X\sim N_n(0,\sigma^2I_n). \]

参数估计量的估计:\(\hat\beta=(X'X)^{-1}X'Y\)。具有线性性、无偏性、有效性以及大样本下的一致性。

\[\mathrm{E}(\hat\beta)=\beta,\quad \mathrm{Var}(\hat\beta)=\sigma^2(X'X)^{-1}. \]

\(\sigma^2\)的估计:\(\hat\sigma^2=\dfrac{e'e}{n-k-1}\)\(k\)为模型中解释变量的个数。

满足基本要求的样本量:\(n\ge 3(k+1)\),或\(n\ge 30\)

求条件均值\(\mathrm{E}(Y_0)\)的置信区间:\(\hat{Y}_0=X_0\hat\beta\),故

\[\mathrm{E}(\hat{Y}_0)=X_0\beta=\mathrm{E}(Y_0),\\ \mathrm{Var}(\hat{Y}_0)=X_0\mathrm{Var}(\hat\beta)X_0'=\sigma^2X_0(X'X)^{-1}X_0',\\ \hat{Y}_0\pm t_{\frac{\alpha}{2}}(n-k-1)\sqrt{\mathrm{Var}(\hat{Y}_0)}. \]

求个别值\(Y_0\)的置信区间:\(Y_0=\hat{Y}_0+\mu\),故

\[\mathrm{E}(Y_0)=X_0\beta,\quad \mathrm{Var}(Y_0)=\sigma^2[1+X_0(X'X)^{-1}X_0]. \]

假设检验

平方和分解及其自由度:

  • \(\mathrm{TSS}\):总平方和,自由度为\(n-1\)
  • \(\mathrm{ESS}\):回归平方和,自由度为\(k\)
  • \(\mathrm{RSS}\):残差平方和,自由度为\(n-k-1\)

拟合优度为\(R^2=1-\dfrac{\mathrm{RSS}}{\mathrm{TSS}}\),为反应变量数的影响,常使用调整可决系数\(\overline{R}^2=1-\dfrac{\mathrm{RSS}/(n-k-1)}{\mathrm{TSS}/(n-1)}\),即分子分母各自除去其自由度,这包含了解释变量个数的影响。

信息准则:可比较所含解释变量个数不同模型的拟合优度,不同的信息准则有不同的惩罚项。

  • 赤池信息准则:\(\displaystyle{\mathrm{AIC}=\ln\frac{e'e}{n}+\frac{2(k+1)}{n}+1+\ln(2\pi)}\)
  • 施瓦茨准则:\(\displaystyle{\mathrm{SC}=\ln\frac{e'e}{n}+\frac{k+1}{n}\ln n+1+\ln(2\pi)}\)

\(t\)检验中,\(S_{\hat\beta_j}^2\)\(\hat\beta_j\)的方差估计,实际上是\(\mathrm{Var}(\hat\beta)\)中第\(j\)个对角元素,再利用\(\hat\sigma^2\)替代即可。

\[t=\frac{\hat\beta_j-\beta_j}{S_{\hat\beta_j}}\sim t(n-k-1). \]

受约束回归:对全估计参数最小二乘的残差平方和为\(\mathrm{RSS}_{U}\),如果对参数施加约束得到的残差平方和为\(\mathrm{RSS}_{R}\),则自然有\(\mathrm{RSS}_{U}\le \mathrm{RSS}_{R}\)。受约束回归检验的假设是\(H_0\):约束为真。如果\(H_0\)成立,施加的约束为真,则两个残差平方和之间不应具有过大的差异,构造\(F\)统计量为

\[F=\frac{(\mathrm{RSS}_{R}-\mathrm{RSS}_{U})/(k_{U}-k_{R})}{\mathrm{RSS}_{U}/(n-k_{U}-1)}\stackrel{H_0}\sim F(k_{U}-k_{R},n-k_{U}-1). \]

因此,如果\(F>F_{\alpha}(k_{U}-k_{R},n-k_{U}-1)\),则拒绝原假设,认为约束为假。注意\(F\)检验总是单边的。

  • \(F\)检验:原假设是\(\beta_1=\beta_2=\cdots=\beta_k\),从而\(\mathrm{RSS}_{R}=\sum y_i^2=\mathrm{TSS}\),故

    \[F=\frac{(\mathrm{TSS-RSS})/k}{\mathrm{TSS}/(n-k-1)}=\frac{\mathrm{ESS}/k}{\mathrm{TSS}/(n-k-1)}. \]

  • 去掉\(q\)个变量:原假设是\(\beta_1=\cdots=\beta_q=0\),从而

    \[F=\frac{(\mathrm{RSS}_{R}-\mathrm{RSS}_{U})/q}{\mathrm{RSS}_{U}/(n-k-1)}=\frac{(\mathrm{RSS}_{R}-\mathrm{RSS})/q}{\mathrm{RSS}/(n-k-1)}. \]

  • 增加\(q\)个变量:原假设是\(\beta_{k+1}=\cdots=\beta_{k+q}\),从而

    \[F=\frac{(\mathrm{RSS}_{R}-\mathrm{RSS}_{U})/q}{\mathrm{RSS}_{U}/(n-(k+q)-1)}=\frac{(\mathrm{RSS}-\mathrm{RSS}_{U})/q}{\mathrm{RSS}_{U}/(n-k-q-1)}. \]

  • 邹氏稳定性检验:有两组样本\(X^{(1)},X^{(2)}\),估计出两组参数\(\alpha,\beta\),原假设是\(\alpha=\beta\),从而

    \[F=\frac{(\mathrm{RSS}_{R}-\mathrm{RSS}_{U})/(k+1)}{\mathrm{RSS}_{U}/(n_1+n_2-(2k+2))}. \]

其他问题

双对数线性模型中,\(\ln Y=\beta_0+\beta_1\ln X\)\(\beta_1\)的含义是弹性,即\(X\)变动\(1\%\)带动\(Y\)变动\(\beta_1\%\)

半对数线性模型分为两种:

  1. \(\ln Y=\beta_0+\beta_1X\)\(\beta_1\)含义是\(X\)绝对变化\(1\)单位带动\(Y\)相对变化\(\beta_1\%\)
  2. \(Y=\beta_0+\beta_1\ln X\)\(\beta_1\)含义是\(X\)相对变化\(1\%\)带动\(Y\)绝对变化\(\beta_1\)

虚拟变量用只取\(0,1\)\(D\)来表示,它依然使得满足经典假设。虚拟变量陷阱指的是,引入虚拟变量使得原模型存在严格的多重共线性,从而无法求参数估计量。

对虚拟变量的引入,可以使用加法方式,或者乘法方式。

  • 加法方式引入,即\(Y=\beta_0+\beta_1X+\beta_2D+\mu\),这样\(D\)将只影响原模型的截距。
  • 乘法方式引入,即\(Y=\beta_0+\beta_1X_1+\beta_2DX_2+\mu\),这样\(D\)既影响斜率又影响截距。

放宽基本假定

违背基本假定的情形主要包括:

  1. 解释变量之间存在严重的多重共线性。
  2. 随机干扰项序列存在异方差性。
  3. 解释变量具有内生性。
  4. 模型有设定偏误。

多重共线性

定义:如果某两个或多个解释变量之间出现了相关性,则称为存在多重共线性。

产生原因:

  1. 经济变量相关的共同趋势。
  2. 模型设定不谨慎。
  3. 样本资料的限制。

后果:

  1. 完全共线性下参数估计量不存在。
  2. 近似共线性下参数估计量方差变大。

检验:

  1. 综合统计检验法:如果\(F\)值和\(R^2\)值较大,但各参数估计量的\(t\)检验值较小,则可能存在多重共线性。

  2. 判定系数:对某个\(X_j\),用模型中的其他变量对其作回归,得到回归方程的拟合优度\(R_j^2\)称为该变量的判定系数,显然判定系数越大,\(X_j\)越能被其他变量所解释,故更容易存在多重共线性。对判定系数作\(F\)检验,有

    \[F_j=\frac{R_j^2/(k-1)}{(1-R_j^2)/(n-k)}\sim F(k-1,n-k). \]

  3. 逐步回归。

解决方案:逐步回归法,应注意排除变量后,保留在模型中变量的系数的经济意义会发生变化。

异方差性

定义:随机干扰项的方差不再是常数,而是互不相同(一般是解释变量的函数),即

\[\mathrm{Var}(\mu_i|X_{i1},\cdots,X_{ik})=\sigma^2_i. \]

产生原因:对截面数据作样本的计量经济学问题,由于在不同样本点上解释变量以外的其他因素差异较大,所以往往存在异方差性。可分类为单增型、单减型、复杂型。

后果:参数估计量非有效,显著性检验失去意义,预测功能失效。

检验:

  1. 图示检验法:绘制\(e_i^2-X\)散点图辅助判断。

  2. 布罗施-帕甘检验(BP检验):用变量的一次项回归残差平方和,即构造辅助回归

    \[e_i^2=\delta_0+\delta_1 X_{i1}+\cdots+\delta_kX_{ik}+\varepsilon_i. \]

    原假设是\(e_i^2\)与样本之间不存在函数关系,即\(\delta_1=\cdots=\delta_k=0\),由受约束回归原理,检验统计量为

    \[F=\frac{R^2_{e^2}/k}{(1-R_{e^2}^2/(n-k-1))}\sim F(k,n-k-1). \]

    若使用拉格朗日乘数检验,则\(LM=nR_{e^2}^{2}\),在\(n\to \infty\)\(LM\sim \chi^2(k)\)

  3. 怀特检验:用变量的二次及以下项回归残差平方和,一般对双变量\(X_1,X_2\)模型,其回归对象是

    \[e_i^2=\delta_{0}+\delta_1X_{1i}+\delta_2X_{2i}+\delta_3X_{1i}X_{2i}+\delta_4X_1^{2i}+\delta_5X_2^{2i}+\varepsilon_i,\\ F=\frac{R_{e^2}^2/5}{(1-R_{e^2}^2)/(n-6)}\sim F(5,n-6);\\ LM=nR_{e^2}^{2}\sim \chi^3(5). \]

解决方法:

  1. 加权最小二乘法(WLS):先设法找到\(\mu_i\)和函数之间的关系\(f(X_i)\),然后用\(\dfrac{1}{\sqrt{f(X_i)}}\)对每个方程加权,使得新的模型是同方差的。主要难点在于估计函数形式\(f\)

    一种估计方式是假定\(\mathrm{Var}(\mu_i|X_i)=\sigma^2\exp(\alpha_0+\alpha_1X_{i1}+\cdots+\alpha_kX_{ik})\),对参数的估计采用

    \[\ln (e_i^2)=\delta_0+\alpha_1X_{i1}+\alpha_2X_{i2}+\cdots+\alpha_kX_{ik}+\nu_i. \]

    估计参数后,就得到

    \[\hat\mu_i^2=\exp(\hat\delta_0+\alpha_1X_{i1}+\cdots+\alpha_kX_{ik}),\\ \hat w_i=\frac{1}{\sqrt{\exp(\hat\delta_0+\hat\alpha_1X_{i1}+\cdots+\alpha_kX_{ik})}}. \]

  2. 异方差稳健标准误:不改变参数估计量\(\tilde\beta_1=\hat\beta_1\),但是改变其方差估计为

    \[\mathrm{Var}(\tilde \beta_1)=\frac{\sum x_i^2e_i^2}{(\sum x_i^2)^2}. \]

内生性

定义:如果一个或多个变量是内生解释变量\(\mathrm{E}(\mu X_j)\ne 0\),则模型存在内生解释变量问题。可分为同期相关和异期相关,主要讨论同期相关。

产生原因:被解释变量与解释变量存在联立因果关系,模型设定时遗漏了重要的解释变量且这个解释变量与模型中的解释变量有同期相关性,解释变量存在测量误差。

后果:参数估计量是有偏且不一致的。

解决:

  1. 工具变量法:选取变量\(Z\)作为内生解释变量\(X_j\)的工具变量,它是外生的,但与内生解释变量需高度相关,同时不能与模型中其他变量有过高的相关性。

    考虑总体矩条件,此时\(\mathrm{E}(X_j\mu)\ne 0\),故通过引入的外生变量\(Z\),有另一个矩条件\(\mathrm{E}(Z\mu)\),从而得到相应的样本矩条件,推导可以得到

    \[\tilde\beta_1=\frac{\sum z_iy_i}{\sum z_ix_i},\quad \tilde \beta_0=\bar{Y}-\tilde\beta_1\bar{X}. \]

    对多元矩阵模式,用\(Z\)替换掉\(X_j\)所在的列得到的新数据矩阵记作\(Z\),则\(\tilde\beta=(Z'X)^{-1}Z'Y\)

    工具变量法小样本下仍然有偏,大样本下却是一致的。局限性在于,一个内生变量只能有一个工具变量。

  2. 两阶段最小二乘法是对工具变量法的推广,可以应用于一个内生解释变量寻找到多个工具变量的情形。

    第一阶段,作工具变量解释内生变量的回归:

    \[\hat X_i=\hat \alpha_0+\hat \alpha_1Z_i, \]

    第二阶段,用\(\hat X_i\)代入\(X_i\)放回原模型回归:

    \[Y_i=\beta_0+\beta_1\hat X_{i}+\mu_i,\\ \tilde\beta_1=\frac{\sum y_iz_i}{\sum x_iz_i}. \]

    注意,在第一阶段中,如果模型中含有其他的外生变量,要将其他外生变量加入回归,这适用于多元回归的情形。

检验:

  1. 解释变量的内生性检验,使用豪斯曼检验:模型中,\(X\)的外生性未知,但明确知道\(Z_1\)外生,即

    \[Y_i=\beta_0+\beta_1X_i+\beta_2Z_{i1}+\mu_i, \]

    如果\(X\)是内生变量,则需寻找一外生变量\(Z_2\)作为工具变量,并对原模型进行工具变量法估计,看两者差异是否显著,如果显著差异,就说明\(X\)内生。

    第一步:类似2SLS,作辅助回归

    \[X_i=\alpha_0+\alpha_1Z_{i1}+\alpha_2Z_{i2}+\nu_i, \]

    得到残差项\(\hat \nu_i\),并把残差项加入原模型,即

    \[Y_i=\beta_0+\beta_1X_i+\beta_2Z_{i1}+\delta\hat\nu_i+\varepsilon_i. \]

    如果认为\(X\)外生,那么第一步辅助回归应当没有什么帮助,所以原假设是\(\delta=0\),如果拒绝该假设,就认为\(X\)是内生变量。

  2. 过度识别约束检验:当一个内生解释变量找到多于一个的工具变量时,需对改组工具变量的外生性进行检验,其检验思路依然是2SLS。模型中\(X\)内生,\(Z\)外生:

    \[Y_i=\beta_0+\beta_1X_i+\beta_2Z_i+\mu_i, \]

    找到了\(X\)的两个工具变量\(Z_1,Z_2\),先作初始回归

    \[Y_i=\tilde\beta_0+\tilde\beta_1X_i+\tilde\beta_2Z_i+\mu_i, \]

    得到残差序列\(\hat\mu_i\),将残差序列用“认定的”外生变量\(Z,Z_1,Z_2\)辅助回归

    \[\tilde\mu_i=\delta_0+\delta_1Z_{i1}+\delta_2Z_{i2}+\delta_3Z_i+\varepsilon_i, \]

    记该回归的可决系数是\(R^2\),则在所有工具变量为外生变量的假设下\(J=nR^2\sim \chi^2(1)\),这里自由度是“多出来的”工具变量数。

模型设定偏误

产生原因主要有两大类:相关变量的遗漏与无关变量的误选,错误的函数形式。

遗漏相关变量的后果:最小二乘估计量有偏,在大样本下不一致。

误选无关变量的后果:最小二乘估计量无偏且一致,但是方差估计会增大。

一般性设定偏误检验:RESET检验,先作普通最小二乘法得到预测序列\(\hat Y_i\),加入预测序列的高次项回归:

\[Y=\beta_0+\beta_1X_1+\gamma_1\hat{Y}^2+\gamma_2\hat{Y}^3+\mu. \]

再使用受约束检验判断\(\gamma_1=\gamma_2=0\)的原假设,如果拒绝了该假设,则模型出现了设定偏误。

序列相关性

定义:如果存在\(\mathrm{E}(\mu_i\mu_j)\ne 0\),就说明存在序列相关性;如果仅有\(\mathrm{E}(\mu_i\mu_{i+1})\ne 0\),就说明存在一阶序列相关。

产生原因:经济变量固有的惯性,模型的设定偏误,数据的“编造”。

后果:参数估计量非有效,检验失去意义,预测功能失效。在一阶自相关\(X_{t}=\rho X_{t-1}+\mu_t\)假定下,参数估计量实际的方差是

\[\mathrm{Var}(\hat\beta_1)=\frac{\sigma^2}{\sum x_t^2}+\frac{2\sigma^2}{\sum x_t^2}\left[\rho\frac{\sum\limits_{t=1}^{T-1}x_tx_{t+1}}{\sum x_t^2}+\rho^2\frac{\sum\limits_{t=2}^{T-2}x_tx_{t+2}}{\sum x_t^2}+\cdots+\rho_{T-1}\frac{x_1x_{T}}{\sum x_t^2} \right]. \]

检验:

  1. 图示检验法:作\(e_t-t\)图或者\(e_t-e_{t-1}\)图辅助判断。

  2. 回归检验法:对\(e_t=\rho e_{t-1}+\varepsilon_t\)\(e_t=\rho_1e_{t-1}+\rho_2e_{t-2}+\varepsilon_t\)等回归方程逐一检验,比较盲目。

  3. 杜斌-瓦森(DW)检验法:DW检验法有较多限制,需要解释变量\(X\)非随机、\(\mu_t\)为一阶自相关形式、回归模型中不含滞后应变量\(Y_{t-1}\),回归模型含有截距项四大基本假设,对\(\mu_t=\rho\mu_{t-1}+\varepsilon\)构造假设检验\(\rho=0\),并构造DW统计量为

    \[\mathrm{D.W.}=\frac{\sum\limits_{t=2}^{n}(e_t-e_{t-1})^2}{\sum\limits_{t=1}^{n}e_t^2}\in[0,4]. \]

    需根据样本容量\(T\)和解释变量数目\(k\)\(\mathrm{D.W.}\)分布表,得到临界值\(d_{L}\)\(d_{U}\),判断自相关状态:

    • \(0<\mathrm{D.W.}<d_{L}\),存在自相关。
    • \(d_{U}<\mathrm{D.W.}<4-d_{U}\),无自相关。
    • \(4-d_{L}<\mathrm{D.W.}<4\),存在负自相关。
    • 其他情况下不能确定。

    事实上,\(\mathrm{D.W.}\approx 2(1-\rho)\)

  4. 拉格朗日乘数检验:考虑一般的\(p\)阶序列相关\(\mu_t=\mu_1\mu_{t-1}+\rho_2\mu_{t-2}+\cdots+\rho_p\mu_{t-p}+\varepsilon_t\),检验受约束回归方程:

    \[Y_t=\beta_0+\beta_1X_{t1}+\cdots+\beta_kX_{tk}+\rho_1\mu_{t-1}+\cdots\rho_p\tilde \mu_{t-p}+\varepsilon_t,\\ H_0:\rho_1=\cdots=\rho_p=0, \]

    对此方程常使用拉格朗日乘数检验,但是\(\mu\)是不可观测的,只能对原模型构造回归,使用残差序列:\(\tilde e_t=Y_t-\hat Y_t\),从而对此辅助5回归有

    \[Y_t=\beta_0+\beta_1X_{t1}+\cdots+\beta_kX_{tk}+\rho_1\tilde e_{t-1}+\cdots+\rho_p\tilde e_{t-p}+\varepsilon_t, \]

    计算其可决系数\(R^2\),有\(\mathrm{LM}=nR^2\sim \chi^2(p)\)

解决:

  1. 广义最小二乘法。

  2. 广义差分法:若原模型存在

    \[\mu_t=\rho_1\mu_{t-1}+\mu_2\rho_{t-2}+\cdots+\rho_p\mu_{t-p}+\varepsilon_t, \]

    作广义差分变换

    \[\begin{aligned} &\quad Y_t-\rho_1Y_{t-1}-\cdots-\rho_pY_{t-p}\\ &=\beta_0(1-\rho_1-\cdots-\rho_p)+\beta_1(X_{t1}-\rho_1X_{t-1,1}-\cdots-\rho_pX_{t-p,1})\\ &\quad +\cdots+\beta_k(X_{tk}-\rho_1X_{t-1,k}-\cdots-\rho_pX_{t-p,k})+\varepsilon_t. \end{aligned} \]

    为估计\(\rho_t\),常使用科克伦-奥科特迭代法。

    广义差分法损失了一定的样本数,在一阶序列相关情况下,对损失的第一次观测值可进行如下的普莱斯-温斯特变换:

    \[Y_1^*=\sqrt{1-\rho^2}Y_1,\quad X_{1j}^*=\sqrt{1-\rho^2}X_{1j}. \]

  3. 序列相关稳健标准误法:用参数估计量的正确标准差进行替换,即使用

    \[\mathrm{Var}(\hat\beta_1)=\frac{\sigma^2}{\sum x_t^2}+\frac{2\sigma^2}{\sum x_t^2}\left[\rho\frac{\sum\limits_{t=1}^{T-1}x_tx_{t+1}}{\sum x_t^2}+\rho^2\frac{\sum\limits_{t=2}^{T-2}x_tx_{t+2}}{\sum x_t^2}+\cdots+\rho_{T-1}\frac{x_1x_{T}}{\sum x_t^2} \right]. \]

    进行计算。

时间序列

平稳序列与白噪声

平稳序列检验的原因:时间序列的平稳性可以替代随机抽样假定;平稳时间序列可以减少虚假回归现象。

平稳时间序列:\(\mathrm{E}(X_t)=\mu\)\(\mathrm{Var}(X_t)=\sigma^2\)\(\mathrm{Cov}(X_t,X_{t+k})=\gamma_k\),就称其为平稳过程。

  • 自相关函数:\(\rho_k=\dfrac{\gamma_k}{\gamma_0}\)

  • 样本自相关函数:注意分子和分母项数的不同,这是为了样本自相关函数更快地收敛。

    \[r_k=\frac{\sum\limits_{t=1}^{n-k}(X_t-\bar{X})(X_{t+k}-\bar{X})}{\sum\limits_{t=1}^{n}(X_t-\bar{X})^2}. \]

白噪声过程检验(Bartlett):如果时间序列由白噪声过程生成,则对所有\(k>0\),样本自相关系数近似服从均值为\(0\),方差为\(1/n\)的正态分布,\(n\)为样本数。可以检验

\[Q_{\mathrm{LB}}=n(n+2)\sum_{k=1}^{m}\frac{r_k^2}{n-k}, \]

该统计量近似服从\(\chi^2(m)\)\(m\)为所选择的滞后期长度,如果\(Q_{\mathrm{LB}}\)大于临界值,就拒绝所有\(\rho_k\)同时为\(0\)的假设,认为此过程不是白噪声过程。

迪基-福勒(DF)检验:判断\(X_t=\rho X_{t-1}+\mu_t\)是否具有单位根\(\rho=1\),即对下式作回归

\[\Delta X_t=\alpha+\delta X_{t-1}+\mu_t, \]

检验是否有\(\delta=0\)。但构造的统计量\(\dfrac{\hat\delta}{S_{\hat\delta}}\)不服从\(t(n-2)\)分布而服从\(\mathrm{DF}\)分布,需要查\(\mathrm{DF}\)分布表以确定是否应当拒绝\(\delta=0\)的假设。如果\(t\)统计量足够小(因为\(\delta\)一般是不能大于\(0\)的,所以是单侧检验),就拒绝原假设\(\delta=0\),认为时间序列不存在单位根,是平稳的。

ADF检验(扩充的DF检验):支持更高阶的自回归过程,且能够代表某种趋势,它包括下面三个模型:

\[\Delta X_t=\delta X_{t-1}+\sum_{i=1}^{m}\beta_i\Delta X_{t-i}+\varepsilon_t,\\ \Delta X_t=\alpha+\delta X_{t-1}+\sum_{i=1}^{m}\beta_i\Delta X_{t-1}+\varepsilon_t,\\ \Delta X_t=\alpha+\beta T+\delta X_{t-1}+\sum_{i=1}^{m}\beta_i\Delta X_{t-i}+\varepsilon_t. \]

这三个模型检验的原假设都是\(\delta=0\),并且对三个模型计算出\(t\)统计量后,需查询各自的\(\mathrm{ADF}\)临界值表。在实行检验时常采用拉格朗日乘数检验确定滞后期\(m\)。实际检验时从第三个模型开始,然后是第二个模型,然后是第一个模型,何时拒绝了原假设就停止检验,否则需要继续检验;从模型三转到模型二时,需检验\(\beta=0\)是否成立,从模型二转到模型一时,需要检验\(\alpha=0\)是否成立。

协整关系

单整:若一个时间序列模型经过\(d\)次差分变得平稳,则称此序列\(d\)阶单整,记作\(I(d)\)

协整:若一系列时间序列\((X_{1t},\cdots,X_{kt})\)都是\(d\)阶单整的,且存在向量\(\alpha=(\alpha_1,\cdots,\alpha_k)\),使得\(Z_t=\alpha X_t'\sim I(d-b)\),这里\(b>0\),即单整阶数下降,就认为序列\((X_{1t},\cdots,X_{kt})\)\((d,b)\)阶协整,协整向量是\(\alpha\)。主要探究两个时间序列协整的情况。

长期稳定关系:两个变量虽然各有长期波动规律,但如果它们\((d,d)\)阶协整,则它们之间存在长期稳定的比例关系。

协整关系使用EG检验:检验两个\(I(1)\)序列是否\((1,1)\)协整。

  1. 第一步用普通最小二乘法估计,并计算非均衡误差(即残差),即

    \[\hat{Y}_t=\hat\alpha_0+\hat\alpha_1X_t,\\ e_t=Y_t-\hat{Y}_t. \]

  2. 第二步,检验\(e_t\)的单整性。如果\(e_t\)平稳,即\(I(0)\),就认为\(Y_t\)\(X_t\)\((1,1)\)阶协整;否则认为\(X_t,Y_t\)不存在协整关系。平稳性检验使用DF检验或者ADF检验,一般使用模型一,即

    \[\Delta e_t=\delta e_{t-1}+\sum_{i=1}^{p}\theta_i\Delta e_{t-i}+\varepsilon_t.\\ H_0:\delta=0. \]

    这里计算出\(\delta\)对应的\(t\)统计量的值后,需要查双变量协整ADF检验临界值表,它比DF检验和ADF检验的临界值还要小。

协整关系的说明:协整方程不一定是均衡方程。

  • 协整方程具有统计意义,均衡方程具有经济意义。
  • 均衡方程应包含均衡系统中所有序列,而协整方程中可以只包含其中的一部分。
  • 协整方程只要求随机项平稳,而均衡方程要求随机项是白噪声。
  • 不能由协整关系导出均衡关系,只能用协整关系检验均衡关系。

误差修正模型

误差修正模型:误差修正模型是一种具有特定形式的计量经济学模型,它将当期的变化\(\Delta Y_t\)分成三部分:当期输入\(\Delta X_t\)的影响,上一期误差\(\mathrm{ecm}_{t-1}\)的影响(\(X_t\)\(Y_t\)之间的关系),完全随机的输入\(\mu_t\)。其表现形式为

\[\Delta Y_t=\beta_1\Delta X_t-\lambda\cdot \mathrm{ecm}_{t-1}+\mu_t. \]

  • \((1,1)\)阶分布滞后形式:

    \[Y_t=\beta_0+\beta_1X_t+\beta_2X_{t-1}+\delta Y_{t-1}+\mu_t,\\ Y_t-Y_{t-1}=\beta_0+\beta_1(X_{t}-X_{t-1})+(\beta_1+\beta_2)X_{t-1}+(\delta-1)Y_{t-1}+\mu_t,\\ \Delta Y_{t}=\beta_1\Delta X_t-(1-\delta)\left(Y_{t-1}-\frac{\beta_1+\beta_2}{1-\delta}X_{t-1}-\frac{\beta_0}{1-\delta} \right)+\mu_t,\\ \Delta Y_t=\beta_1\Delta X_t-\lambda \cdot \mathrm{ecm}_{t-1}+\mu_t. \]

  • \((2,1)\)阶分布滞后形式:

    \[\begin{aligned} Y_t&=\beta_0+\beta_1X_t+\beta_2X_{t-1}+\delta_1Y_{t-1}+\delta_2Y_{t-2}+\mu_t,\\ Y_t-Y_{t-1}&=\beta_0+\beta_1(X_t-X_{t-1})+(\beta_1+\beta_2)X_{t-1}\\ &\quad -\delta_2(Y_{t-1}-Y_{t-2})+(\delta_1+\delta_2-1)Y_{t-1}+\mu_t,\\ \Delta Y_{t}&=\beta_1\Delta X_t-\delta_2\Delta Y_{t-1}\\ &\quad -(1-\delta_1-\delta_2)\left(Y_{t-1}-\frac{\beta_0}{1-\delta_1-\delta_2}+\frac{\beta_1+\beta_2}{1-\delta_1-\delta_2}X_{t-1} \right)+\mu_t\\ &=\beta_1\Delta X_t-\delta_2\Delta Y_{t-1}-\lambda\cdot \mathrm{ecm}_{t-1}+\mu_t. \end{aligned} \]

  • 其他阶的分布滞后模型,可以通过引入更多的历史差分项来达到。

对长期均衡模型\(\ln Y_t=\alpha_0+\alpha_1\ln X_t+\mu_t\)中,\(\alpha_1\)的经济意义是长期弹性;对短期非均衡模型(即\((1,1)\)阶分布滞后形式)\(\beta_1\)的经济意义是短期弹性。一般情况下\(\lambda\in(0,1)\),代表了长期非均衡误差对\(Y_t\)的控制。

格兰杰表述定理:如果\(X,Y\)是协整的,则它们之间的短期非均衡关系总能由一个误差修正模型表述,即

\[\Delta Y_t=\text{lagged}(\Delta Y,\Delta X)-\lambda\cdot \mathrm{ecm}_{t-1}+\mu_t,\quad \lambda\in(0,1). \]

建立误差修正模型可使用EG两步法:

  1. 进行协整回归,检验变量间的协整关系,估计协整向量。
  2. 若协整性存在,则将第一步求到的残差作为非均衡误差项\(e_t\)加入误差修正模型中,并用普通最小二乘法估计参数。即令\(e_{t-1}=\mathrm{ecm}_{t-1}\),需注意,如果\(e_{t-1}\)前面的参数为正,则模型必定是错误的。

格兰杰因果关系检验

格兰杰因:若在包含了\(X,Y\)的过去信息的条件下,对变量\(Y\)的预测效果要优于只单独由\(Y\)的过去信息进行的预测效果,即\(X\)的历史信息有助于解释\(Y\)的将来变化,就认为变量\(X\)是引致变量\(Y\)的格兰杰因。

具体对下列模型:

\[Y_t=\beta_0+\sum_{i=1}^{m}\beta_iY_{t-i}+\sum_{i=1}^{m}\alpha_iX_{t-i}+\mu_t,\\ X_t=\delta_0+\sum_{i=1}^{m}\delta_iX_{t-i}+\sum_{i=1}^{m}\lambda_iY_{t-i}+\nu_i. \]

检验\(\alpha_1=\cdots=\alpha_m=0\),可以知道\(X\)是否对\(Y\)有影响;检验\(\lambda_1=\cdots=\lambda_m=0\),可以知道\(Y\)是否对\(X\)有影响。

在实际应用中,有几个需要考虑的问题:

  1. 滞后期长度的选择。
  2. 时间序列的平稳性问题。
  3. 样本容量问题。
  4. 格兰杰因果关系检验是必要性检验,而不是充分性检验。

stata代码

最小二乘法

reg y x1 x2		// 回归
predict y_hat	// 得到估计结果
predict e,r		// 得到残差序列
estat ic		// 计算信息准则统计量
adjust x1=1 x2=1, se ci level(95)	// 预测均值、标准误、置信区间
adjust x1=1 x2=1, stdf ci level(95)	// 预测个别值、标准误、置信区间

test x1 x2		// 检验联合假设
test x1=0		// 单变量检验
test x1+x2=1	// 约束F检验

constraint define 1 x1+x2=1
cnsreg y x1 x2, constraints(1)		// 受约束回归

两阶段最小二乘法

reg lnq lny lnp		// 原回归
ivregress 2sls lnq lny (lnp=tax)	// 工具变量法,只有一个工具变量
ivregress 2sls lnq lny (lnp=tax taxs)	// 两阶段最小二乘法
hausman tsls ols	// 豪斯曼检验

广义差分法

tsset year			// 设定时间序列
reg y x
estat dwatson		// DW检验
prais y x			// 广义差分法估计,使用Prais-Winsten变换
prais y x, corc		// 广义差分法估计,不使用Prais-Winsten变换
newey y x, lag(1)	// 序列相关稳健标准误,一阶自相关
posted @ 2021-07-04 17:57  江景景景页  阅读(1143)  评论(1编辑  收藏  举报