lecture 3 : probability interpretation of linear regression, locally weighted regression , logistic regression and newton's method
接上节,从概率论的角度来说明使用残差平方和作为 cost function 的合理性。
首先我们假设 \(y^{(i)} = \theta^Tx^{(i)} + \epsilon^{(i)}\)
其中 \(\epsilon^{(i)}\) 是独立同分布的随机变量,都服从正态分布,均值为 0, 方差为 \(\sigma^2\)
即 \(p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\epsilon^{(i)})^2}{2\sigma^2})\)
也即 \(p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i) }- \theta^Tx^{(i)})^2}{2\sigma^2})\)
根据数据集,似然函数 \(L(\theta) = \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta)\)
化为更简单的形式,对数似然函数:\(l(\theta) = mlog(\frac{1}{\sqrt{2\pi}\sigma})+\sum_{i=1}^m -\frac{(y^{(i)} - \theta^Tx)^2}{2\sigma^2}\)
根据极大似然估计,要使似然函数最大,即使对数似然函数最大,即让 \(\sum_{i=1}^m \frac{(y^{(i)} - \theta^Tx)^2}{2\sigma^2}\) 最小,这和使得残差平方和最小是等价的。
在数据集的分布特征比较复杂的时候,不好用线性模型进行预测,这时可以使用 locally (linear) weighted regression, 其基本想法就是在做最优化的时候 cost function 中仅仅考虑那些离要预测的点较近的那些点,这可以通过权重来实现,具体来说,我们的目标是:
Fit \(\theta\) to minimize:
\(\tau\) 是 bandwidth, 控制权重随距离下降的速度。
分类问题也是监督学习中一个重要部分,下面主要关注二分类问题,即 \(y^{(i)}\in \{0,1\}\)
我们想要的是一个这样的 hypothesis : \(h(x)\in [0,1]\)
一个性质很好的函数 \(g(z) = \frac{1}{1+e^{-z}}\) 就满足这样的条件,这个函数称为 sigmoid 函数。
\(h(x) = g(\theta^Tx) = \frac{1}{1+e^{-\theta^Tx}}\)
\(p(y=1|x;\theta) = h(x)\)
\(p(y=0|x;\theta) = 1-h(x)\)
可以写为 \(p(y|x;\theta) = (h(x))^y(1-h(x))^{1-y}\)
根据和前文相同的方法,可写出对数似然函数
让这个对数似然函数取最大值的 \(\theta\) 即为所求。
上面这个优化问题可以用梯度下降求解,也可以用牛顿法求解,下面简要介绍牛顿迭代法,以自变量为实数为例。
我们有函数 \(f\), 想要找到 \(\theta\), 使得 \(f(\theta) = 0\)
设 \(\Delta = \theta^{(t)} - \theta^{(t+1)}\)
有 \(f^{'}(\theta^{(t)}) = \frac{f(\theta^{(t)})}{\Delta}, \Delta = \frac{f(\theta^{(t)})}{f^{'}(\theta^{(t)})}\)
因此迭代式为
要求对数似然函数的极大值,极大值点的一阶导数为 0 ,将 \(l^{'}(\theta) = f(\theta)\) 带入得迭代式。
对于自变量是向量的情况,
其中 \(H\) 是Hessian 矩阵。
在向量维数小的时候牛顿法是好用的,因为其以平方速度收敛,但是当向量维数大的时候,牛顿法的代价是很大的,因为这时 Hessian 矩阵的尺寸会很大,计算它的逆是很昂贵(computationally expensive)的。

浙公网安备 33010602011771号