lecture4 : Generalized Linear Model and SoftMax regression

前面的逻辑回归和线性回归其实都可以归结为一类更加广泛的模型： Generalized Linear Model.

首先要了解指数族分布，它们满足如下的形式：

\[p(y;\eta) = b(y)exp(\eta ^TT(y) - a(\eta)) \]

在 GLM 中，\(T(y) = y\)

指数族分布的一些性质：

MLE at \(\eta\) is concave, which means Negative Log Likelihood is convex
\(E[y;\eta] = \frac{\partial a(\eta)}{\partial \eta}\)
\(Var[y;\eta] = \frac{\partial ^2a(\eta)}{\partial \eta^2}\)

GLM 的一些 assumption 和 design choice：

\(y|x;\theta\) ~ Exp Family\((\eta)\)
\(\eta = \theta^Tx, \theta \in \mathbb{R}^n, x \in \mathbb{R}^n\)
Test time: output \(E[y|x;\theta]\), 即 \(h(x) = E[y|x;\theta]\)

GLM 的大致思路可以用下图来概括：

输入 \(x\) 得到 \(\eta\), 这确定了一个参数确定的指数族分布，再根据这个分布来进行预测。

线性回归和逻辑回归的 hypothesis 和 cost function 都可以由 GLM 很好地解释，分别采用正态分布和伯努利分布。

逻辑回归采用伯努利分布，可以处理二分类问题，如果待分类类别大于二，就要用到多项分布，相对应的逻辑回归的推广形式 Softmax 回归。

对于多分类问题，此时输出结果不再是一个数值，而是一个向量，第 i 个分量对应于第 i 个类别的概率。

即：

\[h(x) = \begin{bmatrix} P(y=1|x;\theta)\\ P(y = 2 | x;\theta)\\ ...\\ P(y = k|x;\theta) \end{bmatrix} = \frac{1}{\sum_{j=1}^k exp(\theta^{(j)T}x)} \begin{bmatrix} exp(\theta^{(1)T}x)\\ ...\\ exp(\theta^{(k)T}x) \end{bmatrix} \]

此处第二个等式后面提出来的系数是为了使得概率加起来为 1 的标准化因子。

\[\theta = \begin{bmatrix} \theta^{(1)} \quad \theta^{(2)} ...\quad \theta ^{(k)}\\ \end{bmatrix}, \theta^{(j)} \in \mathbb{R}^n \]

对于如何求得 \(\theta\), 和前面的线性回归和逻辑回归相同，先写出对数似然函数，然后做极大似然估计。

\[l(\theta) = \sum_{i = 1}^m log(p(y^{(i)}|x^{(i)};\theta))\\ = \sum_{i=1}^mlog(\prod_{l=1}^k \frac{exp(\theta^{(l)T}x)}{\sum_{j=1}^k exp(\theta^{(j)T}x)})^{1\{y^{(i) = l}\}}\\ = \sum_{i=1}^m \sum_{l=1}^k 1\{y^{(i)=l}\}log(\frac{exp(\theta^{(l)T}x}{\sum_{j=1}^k exp(\theta^{(j)T}x)})\\ J(\theta) = -l(\theta) \]

最优化可以使用梯度下降或者牛顿法完成。

posted @ 2022-03-19 21:50 今天AC了吗阅读(69) 评论(0) 收藏举报

刷新页面返回顶部

Steven's Blog

lecture4 : Generalized Linear Model and SoftMax regression

公告