老师布置的几道作业

大部分笔记已经转移到 https://github.com/hschen0712/machine_learning_notes ，QQ：357033150，欢迎交流

这题问的问题据我的理解应该是找到使这个式子最大化的c，用Xi表示出来，解法我认为应该用拉格朗日乘数法。

令 $L(c,\lambda)=c^T\Sigma c - \lambda (c^Tc-1)$，然后对$L$求c的偏导数并设为0：

$$\nabla(L)_c=2\Sigma c - 2\lambda c=0$$

我们有$\Sigma c=\lambda c$，这是题目中给的式子取到极值的条件，也就是说，拉格朗日乘子是协方差矩阵的特征值，而c是对应的特征向量。

把$\Sigma c=\lambda c$代入原题，有 $$c^T\Sigma c=\lambda c^Tc$$，又因为$c^Tc=1$，因此$$c^T\Sigma c=\lambda c^Tc=\lambda$$

那么现在一切都明朗了，只要令$\lambda$等于$\Sigma$最大的特征值就可以了。

另一个问题是我们不光要知道最大值是多少，还要求出特征向量并用$X_i$表示。所以我们要先求协方差矩阵，再对其特征值分解。首先我把回归系数的最大似然估计表示为一个向量：$\hat{\beta}=(\beta_1,\beta_2)^T$，并设$X=\begin{bmatrix}1 &X_1\\1 &X_2\\...&...\\1&X_n\end{bmatrix}$，根据正规方程有：

$$ \hat{\beta}=(X^TX)^{-1}X^TY $$

接下来求协方差矩阵：

$$ \hat{\beta}=(X^TX)^{-1}X^TY=(X^TX)^{-1}X^T(X\beta+\epsilon)=\beta+(X^TX)^{-1}X^T\epsilon$$

$$\Sigma=Var(\hat{\beta})=E[(\hat{\beta}-\beta)(\hat{\beta}-\beta)^T] =E[(X^TX)^{-1}X^T\epsilon\epsilon^TX(X^TX)^{-1}]=(X^TX)^{-1}X^TE[\epsilon\epsilon^T]X(X^TX)^{-1}=\sigma^2(X^TX)^{-1}$$

因此原问题等价于求解

$$\sigma^2(X^TX)^{-1} c=\lambda c$$

于是

$$ (X^TX) c=\frac{\sigma^2}{\lambda} c=\mu c$$

其中$\mu=\frac{\sigma^2}{\lambda}$

$$ (X^TX-\mu I)c=0$$

令$det(X^TX-\mu I)=0$有：

$$\begin{bmatrix}n-\mu & \sum X_i\\ \sum X_i & \sum X_i^2-\mu\end{bmatrix}=0$$

解得

$$\frac{\sigma^2}{\lambda}=\mu=\frac{(\sum X_i^2+n)\pm\sqrt{(\sum X_i^2+n)^2-4(n\sum X_i^2-(\sum X_i)^2)}}{2}=\frac{(\sum X_i^2+n)\pm\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}}{2}$$

因此

$$ \lambda=\frac{2\sigma^2}{(\sum X_i^2+n)\pm\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}}$$

如果$(\sum X_i^2+n)-\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}>0$那么$\lambda$的最大值就是$\frac{2\sigma^2}{(\sum X_i^2+n)-\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}}$

下面证明$(\sum X_i^2+n)-\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}>0$

$$\frac{2\sigma^2}{(\sum X_i^2+n)-\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}}=\frac{2\sigma^2(\sum X_i^2+n+\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2})}{4(n\sum X_i^2-(\sum X_i)^2)}$$

下面研究分母

$$n\sum X_i^2-(\sum X_i)^2=n(\sum X_i^2-n\bar{X}^2)=n\sum(X_i-\bar{X})^2$$

证明：

$$\sum(X_i-\bar{X})^2=\sum(X_i^2+\bar{X}^2-2\bar{X}X_i)=\sum X_i^2+n\bar{X}^2-2n\bar{X}^2=\sum X_i^2-n\bar{X}^2$$

因此分母>=0，等于0的情况只发生在所有$X_i$都相等时，但这种情况一般不会发生，基本上可以认为分母>0。

所以

$$\lambda_{max}=\frac{\sigma^2(\sum X_i^2+n+\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2})}{2n\sum(X_i-\bar{X})^2}$$

剩下的就是求特征向量，太繁琐不求了，如果有更简单的方法欢迎指出