2.数据分析-面板数据变系数模型

面板数据变系数模型

前言:在这一篇文章中,我们将某些影响因素的作用范围扩大,这些因素不仅影响截距项的变动,而且也能影响到斜率项。因素的作用范围就可能有一下几种组合,单独影响截距,单独影响斜率,既影响截距又影响斜率,既不影响截距也不影响斜率(随机效应)。因素又区分为两类,时间因素与个体特质因素。推荐先阅读数据分析-面板数据变截距模型 再阅读本文。

因素
时间因素
个体特质因素
随机因素
影响截距
影响斜率
影响截距与斜率
不影响截距,斜率
影响截距
影响斜率
影响截距与斜率
不影响截距,斜率
影响截距
影响斜率
影响截距与斜率
不影响截距,斜率

为了方便理解,我们将包含个体特质与时间因素的面板回归方程拆写为:
Y i t = α 0 + α i + λ 0 + λ t + X i t ′ β i + X i t ′ β t + X i t ′ β c + ε i t Y_{it}=\alpha_0 +\alpha_i + \lambda_0 +\lambda_t + X_{it}' \beta_i+ X_{it}' \beta_t+ X_{it}' \beta_c + \varepsilon_{it} Yit=α0+αi+λ0+λt+Xitβi+Xitβt+Xitβc+εit
β = β i + β t + β c \beta= \beta_i+ \beta_t + \beta_c β=βi+βt+βc
, i = 1 , 2 , 3 , . . . , N ; t = 1 , 2 , 3 , . . . , T ,i = 1,2,3,...,N;t=1,2,3,...,T ,i=1,2,3,...,N;t=1,2,3,...,T
当然这里的 β t 与 β i \beta_t与\beta_i βtβi也可以像拆分 α 和 λ \alpha和\lambda αλ一样,拆分出均值和差异项

项目含义
i i i个体标志序数
t t t时间序数
X i t X_{it} Xit观测变量, K ∗ 1 K*1 K1向量, ( X 1 i t , , X 2 i t , . . , X k i t ) ′ (X_{1it,},X_{2it},..,X_{kit})' (X1it,,X2it,..,Xkit)
β i \beta_i βi随个体特质而变动的参数, K ∗ 1 K*1 K1向量, ( 0 , 0 , . . . , β i , . . 0 ) ′ (0,0,...,\beta_i,..0)' (0,0,...,βi,..0)
β t \beta_t βt随时间而变动的参数, K ∗ 1 K*1 K1向量, ( 0 , 0 , . . . , β t , . . 0 ) ′ (0,0,...,\beta_t,..0)' (0,0,...,βt,..0)
β c \beta_c βc不变动的参数, K ∗ 1 K*1 K1向量, ( β 1 , β 2 , . . 0... , β k ) ′ (\beta_{1},\beta_{2},..0...,\beta_{k})' (β1,β2,..0...,βk)
β \beta β总参数向量, K ∗ 1 K*1 K1向量, ( β 1 , β 2 , . . . , β i , . . . , β t , . . . , β k ) ′ (\beta_{1},\beta_{2},...,\beta_i,...,\beta_t,...,\beta_{k})' (β1,β2,...,βi,...,βt,...,βk)
α 0 \alpha_0 α0个体效应在个体维度上的平均值
α i \alpha_i αi个体效应在个体维度上差异
α 0 + α i \alpha_0+\alpha_i α0+αi个体效应引起的截距项
λ 0 \lambda_0 λ0时间效应在时间维度上的平均值
λ t \lambda_t λt时间效应在时间维度上差异
λ 0 + λ t \lambda_0 +\lambda_t λ0+λt时间效应引起的截距项
ε i t \varepsilon_{it} εit随机扰动项

固定系数模型

模型

以截距项为个体固定效应,系数为个体固定效应:
Y i t = α 0 + α i + X i t ′ β i + X i t ′ β c + ε i t Y_{it}=\alpha_0 +\alpha_i +X_{it}' \beta_i + X_{it}' \beta_c + \varepsilon_{it} Yit=α0+αi+Xitβi+Xitβc+εit
以截距项为个体固定效应,系数为时间固定效应:
Y i t = α 0 + α i + X i t ′ β t + X i t ′ β c + ε i t Y_{it}=\alpha_0 +\alpha_i +X_{it}' \beta_t + X_{it}' \beta_c + \varepsilon_{it} Yit=α0+αi+Xitβt+Xitβc+εit

  • 以截距项为个体固定效应,系数为个体固定效应,仅考虑第3个参数随个体变化,举例理解:
    Y i t = α 0 + α i + β 1 x 1 i t + β 2 x 2 i t + β 3 i x 3 i t + ε i t Y_{it}=\alpha_0 +\alpha_i + \beta_1 x_{1it}+\beta_2x_{2it}+ \beta_{3i}x_{3it} + \varepsilon_{it} Yit=α0+αi+β1x1it+β2x2it+β3ix3it+εit
    其中 x 1 i t 表 示 第 i 个 个 体 在 t 时 刻 的 第 1 个 变 量 值 , β 1 表 示 第 1 个 变 量 前 的 参 数 x_{1it} 表示第i个个体在t时刻的第1个变量值, \beta_1表示第1个变量前的参数 x1itit1β11
    其中 x 2 i t 表 示 第 i 个 个 体 在 t 时 刻 的 第 2 个 变 量 值 , β 2 表 示 第 2 个 变 量 前 的 参 数 x_{2it} 表示第i个个体在t时刻的第2个变量值, \beta_2表示第2个变量前的参数 x2itit2β22
    其中 x 3 i t 表 示 第 i 个 个 体 在 t 时 刻 的 第 3 个 变 量 值 , β 3 i 表 示 依 赖 于 第 i 个 个 体 特 质 ( 第 i 个 个 体 特 质 是 个 体 分 类 的 类 别 , 表 示 个 体 差 异 影 响 x 3 的 斜 率 ) 、 第 3 个 变 量 前 的 参 数 x_{3it} 表示第i个个体在t时刻的第3个变量值, \beta_{3i}表示依赖于第i个个体特质(第i个个体特质是个体分类的类别,表示个体差异影响x_3的斜率)、第3个变量前的参数 x3itit3β3ii(ix3)3

  • 以截距项为个体固定效应,系数为时间固定效应,仅考虑第3个参数随时间变化,举例理解:
    Y i t = α 0 + α i + β 1 x 1 i t + β 2 x 2 i t + β 3 t x 3 i t + ε i t Y_{it}=\alpha_0 +\alpha_i + \beta_1 x_{1it}+\beta_2x_{2it}+ \beta_{3t}x_{3it} + \varepsilon_{it} Yit=α0+αi+β1x1it+β2x2it+β3tx3it+εit
    其中 x 1 i t 表 示 第 i 个 个 体 在 t 时 刻 的 第 1 个 变 量 值 , β 1 表 示 第 1 个 变 量 前 的 参 数 x_{1it} 表示第i个个体在t时刻的第1个变量值, \beta_1表示第1个变量前的参数 x1itit1β11
    其中 x 2 i t 表 示 第 i 个 个 体 在 t 时 刻 的 第 2 个 变 量 值 , β 2 表 示 第 2 个 变 量 前 的 参 数 x_{2it} 表示第i个个体在t时刻的第2个变量值, \beta_2表示第2个变量前的参数 x2itit2β22
    其中 x 3 i t 表 示 第 i 个 个 体 在 t 时 刻 的 第 3 个 变 量 值 , β 3 t 表 示 依 赖 于 第 t 个 时 段 特 质 ( 第 t 个 时 段 是 依 据 时 间 段 分 类 的 类 别 , 表 示 时 间 段 变 动 影 响 x 3 的 斜 率 ) 、 第 3 个 变 量 前 的 参 数 x_{3it} 表示第i个个体在t时刻的第3个变量值, \beta_{3t}表示依赖于第t个时段特质(第t个时段是依据时间段分类的类别,表示时间段变动影响x_3的斜率)、第3个变量前的参数 x3itit3β3tt(tx3)3

估计方法

  • 最小二乘虚拟变量法(LSDV)
    引入虚拟变量进行回归
    举例,以截距项为个体固定效应,系数为个体固定效应:
    考虑 β 2 与 β 3 \beta_2 与 \beta_3 β2β3受到性别的影响
    Y i t = α 0 + α i + β 1 x 1 i t + β 2 i x 2 i t + β 3 i x 3 i t + ε i t Y_{it}=\alpha_0 +\alpha_i + \beta_1 x_{1it}+\beta_{2i}x_{2it}+ \beta_{3i}x_{3it} + \varepsilon_{it} Yit=α0+αi+β1x1it+β2ix2it+β3ix3it+εit
    = α 0 + α i + β 1 x 1 i t + ( β 2 x 2 i t + γ 1 x 2 i t ∗ D 1 + γ 2 x 2 i t ∗ D 2 ) + ( β 3 x 3 i t + η 1 x 3 i t ∗ D 1 + η 2 x 3 i t ∗ D 2 ) + ε i t =\alpha_0 +\alpha_i +\beta_1 x_{1it}+(\beta_{2}x_{2it}+ \gamma_1 x_{2it}*D_1+ \gamma_2 x_{2it}*D_2)+( \beta_{3}x_{3it} + \eta_1 x_{3it}*D_1+\eta_2 x_{3it}*D_2)+ \varepsilon_{it} =α0+αi+β1x1it+(β2x2it+γ1x2itD1+γ2x2itD2)+(β3x3it+η1x3itD1+η2x3itD2)+εit
    = α 0 + α i + β 1 x 1 i t + ( γ 3 x 2 i t ∗ D 3 + γ 1 x 2 i t ∗ D 1 + γ 2 x 2 i t ∗ D 2 ) + ( η 3 x 3 i t ∗ D 3 + η 1 x 3 i t ∗ D 1 + η 2 x 3 i t ∗ D 2 ) + ε i t =\alpha_0 +\alpha_i +\beta_1 x_{1it}+( \gamma_{3}x_{2it}*D_3+ \gamma_1 x_{2it}*D_1+ \gamma_2 x_{2it}*D_2)+ (\eta_{3}x_{3it}*D_3 + \eta_1 x_{3it}*D_1+\eta_2 x_{3it}*D_2)+ \varepsilon_{it} =α0+αi+β1x1it+(γ3x2itD3+γ1x2itD1+γ2x2itD2)+(η3x3itD3+η1x3itD1+η2x3itD2)+εit
    设置虚拟变量:
    D 1 = { 1 if  第 i 个 个 体 性 别 为 男 性 0 if  第 i 个 个 体 性 别 为 其 他 D_1=\begin{cases} 1 &\text{if } 第i个个体性别为男性 \\ 0 &\text{if } 第i个个体性别为其他 \end{cases} D1={10if iif i
    D 2 = { 1 if  第 i 个 个 体 性 别 为 女 性 0 if  第 i 个 个 体 性 别 为 其 他 D_2=\begin{cases} 1 &\text{if } 第i个个体性别为女性 \\ 0 &\text{if } 第i个个体性别为其他 \end{cases} D2={10if iif i
    D 3 = { 1 if  第 i 个 个 体 性 别 为 中 性 0 if  第 i 个 个 体 性 别 为 其 他 D_3=\begin{cases} 1 &\text{if } 第i个个体性别为中性 \\ 0 &\text{if } 第i个个体性别为其他 \end{cases} D3={10if iif i
    注意:这里引入m-1个虚拟变量与m个虚拟变量的两种方式等价。

随机系数模型

这个模型是有局限性的:模型多多少少会忽略一些解释变量,因此会导致截距项与解释变量相关。所以说模型设置为个体固定效应的模型很正常。随机变系数效应模型的截距项也应该是随机的,截距项如果不是随机的最好不要用随机变系数效应模型。
模型举例:
Swamy随机模型:
Y i = X i β i ~ + ε i , i = 1 , 2 , . . . , N Y_i=X_i\tilde{\beta_i}+\varepsilon_i,i=1,2,...,N Yi=Xiβi~+εi,i=1,2,...,N
β i ~ = β 0 + β i \tilde{\beta_i}=\beta_0+\beta_i βi~=β0+βi
E ( β i ) = 0 k ∗ 1 , E(\beta_i)=0_{k *1}, E(βi)=0k1,

E ( β i β j ′ ) = { Δ i   i = j 0   i ≠ j E(\beta_i\beta_j')=\begin{cases} \Delta_i &\text{ }i=j \\ 0 &\text{ } i \neq j \end{cases} E(βiβj)={Δi0 i=j i=j;

E ( X i t ′ β i ) = 0 E(X_{it}'\beta_i)=0 E(Xitβi)=0;

E ( ε i ε j ′ ) = { σ i   i = j 0   i ≠ j E(\varepsilon_i\varepsilon_j')=\begin{cases} \sigma_i &\text{ }i=j \\ 0 &\text{ } i \neq j \end{cases} E(εiεj)={σi0 i=j i=j;

模型设定检验

由于我们不知道模型中哪些变量的系数是变动的,所以需要依据检验是否某个变量的系数是变动的

  • 数据量很大,可以考虑全部变量系数变化
  • 依次从全部变量系数不同,m-1个系数不同,m-2个系数不同,…,1个系数不同逐个检验(此方法用于变量个数很多或者虚拟变量个数很多的情形)

LR检验

Y i t = α 0 + α i + β 1 x 1 i t + ( β 2 x 2 i t + γ 1 x 2 i t ∗ D 1 + γ 2 x 2 i t ∗ D 2 ) + ( β 3 x 3 i t + η 1 x 3 i t ∗ D 1 + η 2 x 3 i t ∗ D 2 ) + ε i t Y_{it}=\alpha_0 +\alpha_i +\beta_1 x_{1it}+(\beta_{2}x_{2it}+ \gamma_1 x_{2it}*D_1+ \gamma_2 x_{2it}*D_2)+( \beta_{3}x_{3it} + \eta_1 x_{3it}*D_1+\eta_2 x_{3it}*D_2)+ \varepsilon_{it} Yit=α0+αi+β1x1it+(β2x2it+γ1x2itD1+γ2x2itD2)+(β3x3it+η1x3itD1+η2x3itD2)+εit
原假设: γ 1 = γ 2 = η 1 = η 2 = 0 \gamma_1=\gamma_2=\eta_1=\eta_2=0 γ1=γ2=η1=η2=0;(变量的系数不变动)
备择假设: γ 1 , γ 2 , η 1 , η 2 \gamma_1,\gamma_2,\eta_1,\eta_2 γ1,γ2,η1,η2不全为0;(变系数模型)

LR检验的无约束回归方程(备择假设成立):
Y i t = α 0 + α i + β 1 x 1 i t + ( β 2 x 2 i t + γ 1 x 2 i t ∗ D 1 + γ 2 x 2 i t ∗ D 2 ) + ( β 3 x 3 i t + η 1 x 3 i t ∗ D 1 + η 2 x 3 i t ∗ D 2 ) + ε i t Y_{it}=\alpha_0 +\alpha_i +\beta_1 x_{1it}+(\beta_{2}x_{2it}+ \gamma_1 x_{2it}*D_1+ \gamma_2 x_{2it}*D_2)+( \beta_{3}x_{3it} + \eta_1 x_{3it}*D_1+\eta_2 x_{3it}*D_2)+ \varepsilon_{it} Yit=α0+αi+β1x1it+(β2x2it+γ1x2itD1+γ2x2itD2)+(β3x3it+η1x3itD1+η2x3itD2)+εit
计算 l n L u lnL_u lnLu
LR检验的约束回归方程(原假设成立):
Y i t = α 0 + α i + β 1 x 1 i t + β 2 x 2 i t + β 3 x 3 i t + ε i t Y_{it}=\alpha_0 +\alpha_i + \beta_1 x_{1it}+\beta_{2}x_{2it}+ \beta_{3}x_{3it} + \varepsilon_{it} Yit=α0+αi+β1x1it+β2x2it+β3x3it+εit
计算 l n L r lnL_r lnLr

Swamy检验

Y i = X i β i ~ + ε i , i = 1 , 2 , . . . , N Y_i=X_i\tilde{\beta_i}+\varepsilon_i,i=1,2,...,N Yi=Xiβi~+εi,i=1,2,...,N
β i ~ = β 0 + β i \tilde{\beta_i}=\beta_0+\beta_i βi~=β0+βi
E ( β i ) = 0 k ∗ 1 , E(\beta_i)=0_{k *1}, E(βi)=0k1,
原假设: β 0 = β 1 = β 2 = β 3 = . . . = β N \beta_0=\beta_1=\beta_2=\beta_3=...=\beta_N β0=β1=β2=β3=...=βN (不变系数)
备择假设: β 0 , β 1 , β 2 , β 3 , . . . , β N \beta_0,\beta_1,\beta_2,\beta_3,...,\beta_N β0,β1,β2,β3,...,βN不全相等(变系数)

  • 同方差 v a r ( ε i ) = σ ε 2 var(\varepsilon_i)=\sigma_\varepsilon^2 var(εi)=σε2
    服从F分布
  • 异方差 v a r ( ε i ) = σ i 2 var(\varepsilon_i)=\sigma_i^2 var(εi)=σi2
    检验统计量为 S w = ∑ i = 1 N ( β ^ i − β ^ 0 ∗ ) ′ X i ′ X i ( β ^ i − β ^ 0 ∗ ) σ ^ i 2 → d χ 2 ( ( N − 1 ) k ) ( 给 定 N ; T → ∞ 时 ) Sw=\displaystyle\sum_{i=1}^N\frac{(\hat\beta_i-\hat\beta_0^*)'X_i'X_i(\hat\beta_i-\hat\beta_0^*)}{\hat\sigma_i^2}\xrightarrow[]{d}\chi^2((N-1)k)(给定N;T\xrightarrow{} \infty时 ) Sw=i=1Nσ^i2(β^iβ^0)XiXi(β^iβ^0)d χ2((N1)k)(N;T )
    β ^ 0 ∗ = ( ∑ i = 1 N σ ^ i 2 X i ′ X i ) − 1 ( ∑ i = 1 N σ ^ i 2 X i ′ Y i ) \hat\beta_0^*=(\displaystyle\sum_{i=1}^N\hat\sigma_i^2X_i'X_i)^{-1}(\displaystyle\sum_{i=1}^N\hat\sigma_i^2X_i'Y_i) β^0=(i=1Nσ^i2XiXi)1(i=1Nσ^i2XiYi)

模型检验步骤

固定效应

LR逐次检验:

  1. 原假设:混合回归模型(截距与斜率都不变)
    备择假设:截距项与斜率项(k个变量)发生变化
    此时:不拒绝原假设,建立混合回归模型,检验结束;拒绝原假设,截距项与斜率项之中至少有一项在变化,因此进入下一步检验。

  2. 引入截距项的约束函数,验证是否成立
    原假设:变量的斜率变化 (约束条件成立)
    备择假设:截距项、变量的斜率变化(约束条件不成立)
    此时:不拒绝原假设,认为截距项不变。接下来要检验哪些变量的斜率发生变化;拒绝原假设,认为截距项变化,接下来需要检验截距项随时点变化、个体变化、个体时点变化,以及哪些变量的斜率发生变化。

  3. 在上一步原假设的基础上在引入任意k-1个关于变量系数的约束条件,有1个变量系数自由另外的k-1个约束条件的,认为这1个变量系数为模型唯一变动的变量系数,否则认为至少有2个变量系数变动。
    原假设:个体FX变截距,考察其中一个变量变化,另外k-1个变量不发生变化。
    备择假设:个体FX变截距,至少有两个变量系数变化。
    此时:不拒绝原假设,我们认为个体FE变截距,且只有一个变量斜率发生变动。检验结束。
    拒绝原假设,认为截距项发生变动,并且k-1个变量的斜率中至少有一个会变。继续检验。

  4. 减少1个约束条件个数,重复第三步检验。

原假设
备择假设
原假设
原假设
备择假设
备择假设
原假设
备择假设
模型检验,约束全部系数与截距项
混合回归模型 : 截距与斜率都不变
结束检验,建立混合回归模型
截距项和斜率项的k个变量斜率之中至少有一个发生变化,约束截距项
截距不变,变量的斜率变化
引入k-1个约束,检测那个斜率变化
约束条件成立,检测出,检验结束
认为有两个斜率变动,因此i减少约束条件个数
截距项与变量的斜率变化
截距项变化,一个变量斜率变化,其余k-1个变量斜率不变化
检验结束,建立变截距,1个变量系数变化的模型
截距项变化,所有的变量系数都发生变化,下一步检验减少约束条件个数
随机效应

原假设:混合模型
备择假设:截距项、所有变量(k个变量)的斜率都是随机效应。
此时:若不拒绝原假设,表明建立混合(pool)模型,检验到此结束。
若拒绝原假设,建立随机系数模型。
注意:随机系数模型的截距项也应该是随机。

建模步骤

数据非平稳
数据平稳
数据平稳
不拒绝原假设
拒绝原假设
不拒绝原假设
拒绝原假设
不拒绝原假设,意味着截距项不变动
拒绝原假设,意味着截距项变动
不拒绝原假设
拒绝原假设
输入数据
描述性统计分析
面板单位根检验
面板协整分析
F检验 or LR检验
变系数检验
固定系数检验
系数不变
系数变动
随机系数检验
系数不变
系数变动
使用混合回归
豪斯曼检验
选择个体随机效应模型
选择个体固定效应模型
posted @ 2021-01-10 08:27  kuanleung  阅读(144)  评论(0)    收藏  举报  来源