Chapter3_Linear Models for Regression(讨论课)

讨论课提纲：

自我介绍
简单说一下回归的主要问题，给定数据集，找出输入和输出之间的关系，对于一个新的输入可以预测其输出

我们将从两个角度来讨论这个问题，一个是传统的频率学派，利用极大似然估计进行分析，首先利用极大似然估计估计参数，并找出其与最小二乘法之间的联系，然后从几何角度理解最小二乘法。因为样本数量可能会很大，所以我们将采用在线学习的方式就行。同时因为极大似然估计是有偏估计，其估计结果也与样本有较大联系，所以加入正则项并通过偏差-方差对误差结果进行分解。
另一个是贝叶斯学派，认为目标值满足一定的概率分布，从而估计目标值的后验分布。这里分为两个步骤，第一个步骤是估计参数的后验分布，利用假设的参数的先验分布，和独立采样得到的似然函数得到参数的后验分布。再利用参数的后验分布结合似然函数，关于参数积分，即得到了预测分布，知道了预测分布以后，我们就可以利用期望作为对目标值的估计。得到了期望值以后，我们会发现，贝叶斯线性回归方法还有另一种形式，即利用等价核进行估计。

首先介绍一下广义线性函数，之所以称为广义线性函数，是因为它关于系数是满足线性关系的，但是基函数的选择却可以是非线性函数。

常用的几种基函数，其实Taylor级数和傅里叶级数也可以看做一种广义线性回归。（书上公式推导有误，sigmoid 和 tanh 的关系）

回顾一下1.5节的内容，我们采用平方loss函数得到的期望损失函数，用来衡量y(x)和t之间的差距。

利用变分法我们可以得到损失函数的期望关于y(x)求偏导为0时对应的y(x)即是t在x的条件期望，即在y(x)=E[t|x]时，损失最小。

同时我们可以发现期望损失函数可以进行分解（板书推导，书上公式有误），得到两项，一项是噪声而另一项则是说明在平方损失函数的条件下，最优的近似即是条件期望。
同时可以从平方损失函数推广到更一般的情况。

现在我们开始考虑极大似然和最小二乘法之间的关系，这里我们采用平方误差函数。假设数据有高斯噪声，数据是独立采样，从而推导出对数似然函数。

最大化对数似然函数实质上就是最小化平方误差函数，求偏导得到的w的表达式，我们这是会发现，和最小二乘法的正规方程组具有相同的形式。
注意一下设计矩阵，每一行是一个数据，每一列是一个基函数在每个数据点上的值。
广义逆矩阵（板书）

关于w_0和xb求偏导，得到解释：w_0是目标均值和估计均值之间的偏差，而xb则是和目标值的残差方差相关。

最小二乘的几何解释：子空间上的正交投影

会注意到求逆矩阵的时候和特征维数有关，而且随着样本数量的增加，计算复杂性也随之增加，所以考虑在线学习的方法。

考虑一下正则项，可以看作一个约束问题，从几何上看，L1正则是稀疏的，而L2正则代数性质会更好一些，之后会从贝叶斯角度对正则项再进行解释。

偏差方差分解，如果说数据无限大，则可以无限近似目标函数，但现实做不到，所以我们估计的误差会与数据集的选取相关。
考虑对误差进行分解，得到了bias和variance。
需要在二者之间进行权衡。

贝叶斯线性回归

回顾一下贝叶斯公式

参数的后验概率的计算

与带有二次正则项的极大似然具有相同的形式。
Laplace分布-L1正则，Gaussian分布-L2正则。

从图像上理解先验，似然和后验，样本对于概率分布的影响。

先验、后验概率的转换，迭代的使用。

预测分布的推导。

直观几何解释。

等价核的定义。

等价核和相关系数之间的关系。等价核和为1的推导，直观理解，矩阵乘法。

大致整理了一下思路，希望明天晚上讲的时候语速慢一点，条例清晰一点，之后再更。

posted @ 2017-10-29 01:06 Blueprintf 阅读(224) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部