1 一般回归问题

一般来说,计量经济学教材会从线性回归讲起,但这里再在线性回归之前,理一理更一般性的回归问题。

先看定义一下什么叫回归:

定义1 回归函数(Regression Function):\(\mathbb{E}(y|\mathbf{x})\)就是\(y\)\(\mathbf{x}\)的回归函数。

再定义一个度量预测得好不好的指标:

定义2 均方误(Mean Squared Error,MSE):假设用\(g(\mathbf{x})\)预测\(y\),则预测量\(g(\mathbf{x})\)的均方误为 $$\text{MSE}(g)=\mathbb{E}[y-g(\mathbf{x})]^2$$

最好的预测函数的形式是什么?以下定理表明,最好的预测函数,恰恰就是回归函数即条件期望。

定理1 MSE的最优解:\(\mathbb{E}(y|\mathbf{x})\)是以下问题的最优解:

\[\mathbb{E}(y|\mathbf{x}) = \arg\min_{g\in \mathbb{F}} \text{MSE}(g) = \arg\min_{g\in \mathbb{F}} \mathbb{E}[y-g(\mathbf{x})]^2 \]

其中\(\mathbb{F}\)是所有可测和平方可积函数的集合(space of all measurable and square-integrable functions):

\[\mathbb{F}=\{ g:\mathbb{R}^{k+1}\to\mathbb{R} \Big| \int g^2(\mathbf{x})f_X(\mathbf{x})\,d\mathbf{x}<\infty\} \]

在该定理中,直接求解最值问题比较复杂,需要用到变分法,用构造法证明该定理比较简单,直接对\(\text{MSE}(g)\)做分解即可。令\(g_0(\mathbf{x})\equiv \mathbb{E}(y|\mathbf{x})\),则有

\[\begin{aligned} \text{MSE}(g) = &\mathbb{E}[y-g_0(\mathbf{x})+g_0(\mathbf{x})-g(\mathbf{x})]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2+2\mathbb{E}[\left(y-g_0(\mathbf{x})\right)\left(g_0(\mathbf{x})-g(\mathbf{x})\right)]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2 \end{aligned} \]

显然,第一项为常数,只有当第二项为\(0\)\(g(\mathbf{x})=g_0(\mathbf{x})\)时,\(\text{MSE}(g)\)取到最小。

再来看一个有关回归中的扰动项的定理:

定理2 回归等式(Regresssion Identity):给定\(\mathbb{E}(y|\mathbf{x})\),总是有

\[y=\mathbb{E}(y|\mathbf{x})+\varepsilon \]

其中\(\varepsilon\)为回归扰动项(regression disturbance),满足\(\mathbb{E}(\varepsilon|\mathbf{x})=0\)

接下来的问题是,我们该如何对这个最优解\(g_0(\mathbf{x})\)建模?最简单地,可以用线性函数去近似它。

2 线性回归

首先,引入仿射函数的概念:

定义3 仿射函数族(Affine Functions):记\(\mathbf{x}=(1,x_1,\ldots,x_k)'\)\(\beta=(\beta_0,\beta_1,\ldots,\beta_k)'\),则仿射函数族定义为

\[\mathbb{A}= \left\{g: \mathbb{R}^{k+1}\to\mathbb{R} \Big| g(\mathbf{x})=\mathbf{x}'\beta \right\} \]

当我们将\(g(x)\)的函数集合从所有可测且平方可积的函数集限制为仿射函数集后,问题转变为求解最优的参数\(\beta^*\)使得MSE最小化,该参数就称为最优最小二乘近似系数。

定理3 最优线性最小二乘预测(Best Linear Least Squares Prediction):假设\(E(y^2)<\infty\)且矩阵\(\mathbb{E}(\mathbf{x}\mathbf{x}')\)非奇异,则优化问题

\[\min_{g\in\mathbb{A}} \mathbb{E}[y-g(\mathbf{x})]^2=\min_{\beta\in\mathbb{R}^{k+1}} \mathbb{E}(y-\mathbf{x}'\beta)^2 \]

的解,即最优线性最小二乘预测为

\[g^*(\mathbf{x})=\mathbf{x}'\beta^* \]

其中

\[\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y) \]

证明非常容易,只需对一阶条件\(\dfrac{d\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta}\bigg|_{\beta=\beta^*}=0\)求解即可,因为二阶条件即Hessian矩阵\(\dfrac{d^2\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta d\beta'}=\mathbb{E}(\mathbf{x}\mathbf{x}')\)\(\mathbb{E}(\mathbf{x}\mathbf{x}')\)非奇异时一定是正定的。

下面正式定义线性回归模型:

定义4 线性回归模型(Linear Regression Model):

\[y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1} \]

其中\(u\)是回归模型误差(regression model error)。

那么,线性回归模型和最优线性最小二乘预测之间有什么关系?

定理4 假设定理3的条件成立,\(y=\mathbf{x}'\beta+u\),并令\(\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y)\)为最优线性最小二乘近似系数。则

\[\beta=\beta^* \]

等价于\(\mathbb{E}(\mathbf{x}u)=0\)

该定理的证明非常简单,需从必要性和充分性两方面证明,在此不作展开。

该定理意味着,只要正交条件\(\mathbb{E}(\mathbf{x}u)=0\)满足,那么线性回归模型的参数值就等于最优线性最小二乘近似系数\(\beta^*\),二者等价。

3 模型的正确设定

均值模型怎样才是正确设定了?

定义5 条件均值模型的正确设定(Correct Model Specification in Conditional Mean):线性回归模型\(y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1}\)是条件均值\(\mathbb{E}(y|\mathbf{x})\)的正确设定,若存在某个参数\(\beta^o \in \mathbb{R}^{k+1}\)使得\(\mathbb{E}(y|\mathbf{x})=\mathbf{x}'\beta\)
另一方面,若对于任意\(\beta\in \mathbb{R}^{k+1}\)均有\(\mathbb{E}(y|\mathbf{x})\neq \mathbf{x}'\beta\),则线性回归模型是对\(\mathbb{E}(y|\mathbf{x})\)的错误设定。

由该定义可以看到,线性回归模型设定正确的条件是存在某一参数\(\beta^o\)使得\(\mathbb{E}(u|\mathbf{x})=0\)。换句话说,线性回归模型设定正确的充要条件是\(\mathbb{E}(u|\mathbf{x})=0\),其中\(u=y-\mathbf{x}'\beta^o\)

下面的定理说明当均值模型设定正确时,回归模型误差项\(u\)与真实回归扰动项\(\varepsilon\)的关系:

定理5 如果线性回归模型\(y=\mathbf{x}'\beta+u\)是对条件均值\(\mathbb{E}(y|\mathbf{x})\)的正确设定,则
(1) 存在一个参数\(\beta^o\)和一个随机变量\(\varepsilon\),有\(y=\mathbf{x}'\beta^o+\varepsilon\),其中\(\mathbb{E}(\varepsilon|\mathbf{x})=0\)
(2) \(\beta^*=\beta^o\)

由定义5可直接得到(1),对于(2),可由(1)的\(\mathbb{E}(\varepsilon|\mathbf{x})=0\)推出\(\mathbb{E}(\mathbf{x}\varepsilon)=0\),再使用定理4即可得证。

为便于理解,下面用一个例子说明什么叫模型的正确设定和错误设定:

假设数据生成过程(DGP)为\(y=1+\dfrac{1}{2}x_1+\dfrac{1}{4}(x_1^2-1)+\varepsilon\),其中\(x_1\)\(\varepsilon\)是相互独立的\(\mathcal{N}(0,1)\)随机变量。现在如果我们用线性回归模型\(y=\mathbf{x}'\beta+u\)对该DGP进行近似,其中\(\mathbf{x}=(1,x_1)'\)

经计算,我们可以解得最优线性最小二乘近似\(\beta^*=(1,\dfrac{1}{2})'\),而\(g^*(\mathbf{x})=1+\dfrac{1}{2}x_1\),可以看到其中没有包含非线性的部分。若在回归模型中取\(\beta=\beta^*\),由定理4,就有\(\mathbb{E}(\mathbf{x}u)=0\),但是,此时\(\mathbb{E}(u|\mathbf{x})=\dfrac{1}{4}(x_1^2-1)\neq 0\),即模型没有正确设定。

模型没有被正确设定,它会造成什么样的后果?计算可知真正的期望边际效应为\(\dfrac{\mathbb{E}(y|\mathbf{x})}{dx_1}=\dfrac{1}{2}+\dfrac{1}{2}x_1\),但它不等于\(\beta^*_1=\dfrac{1}{2}\)。也就是说,模型的错误设定,会导致解出的最优线性最小二乘近似并不是真正的期望边际效用。

参考资料

  • 洪永淼《高级计量经济学》,2011