lecture 3 : probability interpretation of linear regression, locally weighted regression , logistic regression and newton's method

接上节，从概率论的角度来说明使用残差平方和作为 cost function 的合理性。

首先我们假设 \(y^{(i)} = \theta^Tx^{(i)} + \epsilon^{(i)}\)

其中 \(\epsilon^{(i)}\) 是独立同分布的随机变量，都服从正态分布，均值为 0，方差为 \(\sigma^2\)

即 \(p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\epsilon^{(i)})^2}{2\sigma^2})\)

也即 \(p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i) }- \theta^Tx^{(i)})^2}{2\sigma^2})\)

根据数据集，似然函数 \(L(\theta) = \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta)\)

化为更简单的形式，对数似然函数：\(l(\theta) = mlog(\frac{1}{\sqrt{2\pi}\sigma})+\sum_{i=1}^m -\frac{(y^{(i)} - \theta^Tx)^2}{2\sigma^2}\)

根据极大似然估计，要使似然函数最大，即使对数似然函数最大，即让 \(\sum_{i=1}^m \frac{(y^{(i)} - \theta^Tx)^2}{2\sigma^2}\) 最小，这和使得残差平方和最小是等价的。

在数据集的分布特征比较复杂的时候，不好用线性模型进行预测，这时可以使用 locally (linear) weighted regression, 其基本想法就是在做最优化的时候 cost function 中仅仅考虑那些离要预测的点较近的那些点，这可以通过权重来实现，具体来说，我们的目标是：

Fit \(\theta\) to minimize:

\[J(\theta)=\sum_{i=1}^m \omega^{(i)}(y^{(i)} - \theta^Tx^{(i)})^2\\ \omega^{(i)} = exp(-\frac{(x^{(i)} - x)}{2\tau ^2}) \]

\(\tau\) 是 bandwidth, 控制权重随距离下降的速度。

分类问题也是监督学习中一个重要部分，下面主要关注二分类问题，即 \(y^{(i)}\in \{0,1\}\)

我们想要的是一个这样的 hypothesis : \(h(x)\in [0,1]\)

一个性质很好的函数 \(g(z) = \frac{1}{1+e^{-z}}\) 就满足这样的条件，这个函数称为 sigmoid 函数。

\(h(x) = g(\theta^Tx) = \frac{1}{1+e^{-\theta^Tx}}\)

\(p(y=1|x;\theta) = h(x)\)

\(p(y=0|x;\theta) = 1-h(x)\)

可以写为 \(p(y|x;\theta) = (h(x))^y(1-h(x))^{1-y}\)

根据和前文相同的方法，可写出对数似然函数

\[l(\theta) = \sum_{i=1}^{m}y^{(i)}log(h(x^{(i)})) + (1-y^{(i)})log(1-h(x^{(i)})) \]

让这个对数似然函数取最大值的 \(\theta\) 即为所求。

上面这个优化问题可以用梯度下降求解，也可以用牛顿法求解，下面简要介绍牛顿迭代法，以自变量为实数为例。

我们有函数 \(f\), 想要找到 \(\theta\), 使得 \(f(\theta) = 0\)

设 \(\Delta = \theta^{(t)} - \theta^{(t+1)}\)

有 \(f^{'}(\theta^{(t)}) = \frac{f(\theta^{(t)})}{\Delta}, \Delta = \frac{f(\theta^{(t)})}{f^{'}(\theta^{(t)})}\)

因此迭代式为

\[\theta^{(t+1)} = \theta^{(t)} - \Delta \]

要求对数似然函数的极大值，极大值点的一阶导数为 0 ，将 \(l^{'}(\theta) = f(\theta)\) 带入得迭代式。

对于自变量是向量的情况，

\[\theta^{(t+1)} = \theta^{(t)} + H^{-1}\nabla_{\theta}l(\theta) \]

其中 \(H\) 是Hessian 矩阵。

在向量维数小的时候牛顿法是好用的，因为其以平方速度收敛，但是当向量维数大的时候，牛顿法的代价是很大的，因为这时 Hessian 矩阵的尺寸会很大，计算它的逆是很昂贵(computationally expensive)的。

posted @ 2022-03-19 21:47 今天AC了吗阅读(66) 评论(0) 收藏举报

刷新页面返回顶部

Steven's Blog