lecture 3 : probability interpretation of linear regression, locally weighted regression , logistic regression and newton's method

接上节,从概率论的角度来说明使用残差平方和作为 cost function 的合理性。

首先我们假设 \(y^{(i)} = \theta^Tx^{(i)} + \epsilon^{(i)}\)

其中 \(\epsilon^{(i)}\) 是独立同分布的随机变量,都服从正态分布,均值为 0, 方差为 \(\sigma^2\)

\(p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\epsilon^{(i)})^2}{2\sigma^2})\)

也即 \(p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i) }- \theta^Tx^{(i)})^2}{2\sigma^2})\)

根据数据集,似然函数 \(L(\theta) = \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta)\)

化为更简单的形式,对数似然函数:\(l(\theta) = mlog(\frac{1}{\sqrt{2\pi}\sigma})+\sum_{i=1}^m -\frac{(y^{(i)} - \theta^Tx)^2}{2\sigma^2}\)

根据极大似然估计,要使似然函数最大,即使对数似然函数最大,即让 \(\sum_{i=1}^m \frac{(y^{(i)} - \theta^Tx)^2}{2\sigma^2}\) 最小,这和使得残差平方和最小是等价的。

在数据集的分布特征比较复杂的时候,不好用线性模型进行预测,这时可以使用 locally (linear) weighted regression, 其基本想法就是在做最优化的时候 cost function 中仅仅考虑那些离要预测的点较近的那些点,这可以通过权重来实现,具体来说,我们的目标是:

Fit \(\theta\) to minimize:

\[J(\theta)=\sum_{i=1}^m \omega^{(i)}(y^{(i)} - \theta^Tx^{(i)})^2\\ \omega^{(i)} = exp(-\frac{(x^{(i)} - x)}{2\tau ^2}) \]

\(\tau\) 是 bandwidth, 控制权重随距离下降的速度。

分类问题也是监督学习中一个重要部分,下面主要关注二分类问题,即 \(y^{(i)}\in \{0,1\}\)

我们想要的是一个这样的 hypothesis : \(h(x)\in [0,1]\)

一个性质很好的函数 \(g(z) = \frac{1}{1+e^{-z}}\) 就满足这样的条件,这个函数称为 sigmoid 函数。

\(h(x) = g(\theta^Tx) = \frac{1}{1+e^{-\theta^Tx}}\)

\(p(y=1|x;\theta) = h(x)\)

\(p(y=0|x;\theta) = 1-h(x)\)

可以写为 \(p(y|x;\theta) = (h(x))^y(1-h(x))^{1-y}\)

根据和前文相同的方法,可写出对数似然函数

\[l(\theta) = \sum_{i=1}^{m}y^{(i)}log(h(x^{(i)})) + (1-y^{(i)})log(1-h(x^{(i)})) \]

让这个对数似然函数取最大值的 \(\theta\) 即为所求。

上面这个优化问题可以用梯度下降求解,也可以用牛顿法求解,下面简要介绍牛顿迭代法,以自变量为实数为例。

我们有函数 \(f\), 想要找到 \(\theta\), 使得 \(f(\theta) = 0\)

\(\Delta = \theta^{(t)} - \theta^{(t+1)}\)

\(f^{'}(\theta^{(t)}) = \frac{f(\theta^{(t)})}{\Delta}, \Delta = \frac{f(\theta^{(t)})}{f^{'}(\theta^{(t)})}\)

因此迭代式为

\[\theta^{(t+1)} = \theta^{(t)} - \Delta \]

要求对数似然函数的极大值,极大值点的一阶导数为 0 ,将 \(l^{'}(\theta) = f(\theta)\) 带入得迭代式。

对于自变量是向量的情况,

\[\theta^{(t+1)} = \theta^{(t)} + H^{-1}\nabla_{\theta}l(\theta) \]

其中 \(H\) 是Hessian 矩阵。

在向量维数小的时候牛顿法是好用的,因为其以平方速度收敛,但是当向量维数大的时候,牛顿法的代价是很大的,因为这时 Hessian 矩阵的尺寸会很大,计算它的逆是很昂贵(computationally expensive)的。

posted @ 2022-03-19 21:47  今天AC了吗  阅读(56)  评论(0)    收藏  举报