学习总结:机器学习(八)
广义线性模型(Generalized Linear Models)
前面的内容讲述的是回归问题和分类问题的一些常用的算法。从这一部分开始,我们从指数族的概念出发,综合前面讲的内容,讲解广义线性模型(GLM)。我们将发现,前面讲的内容,只是GLM的特例。
指数族(The exponential family)
对于满足如下形式的分布我们称为指数族:
![]()
其中,η称为特性参数(natural parameter),T(y)为充分统计量(sufficient statistic),a(η)为对数分函数(log partition function)。
下面我们说明一些常见的分布可以写成指数族的形式。
伯努利分布
伯努利分布Bernoulli(φ)的概率密度函数为:p(y = 1; φ) = φ; p(y = 0; φ) = 1 − φ。综合起来,伯努利分布可以写为:

可以看到,它是指数族的形式,其中:

高斯分布
高斯分布可以用指数族的形式表示,为简化,设σ2=1,有:

其中,

建立广义线性模型
广义线性模型本身来说也是一个复杂的概念,有一本书专门讲这个的。建立广义线性模型的目的是为了便于分析那些能够转化为广义线性模型的分布,分析其共有的特点。建立广义线性模型需要有三个假设:
1.y|x;θ ~ ExponentialFamily(η) 给定x和θ,y是关于η的指数分布
2.给定x,我们的目的是预测T(y)的期望值。在大部分情况下,T(y)=y,所以预测值h(x)满足h(x)=E[y|x]。
3.特性参数η与输入x满足线性关系:η=θTx。
普通最小二乘法
普通最小二乘也是广义线性模型家族中的一员。考虑输出y为连续值,可以将y的分布模式化为成高斯分布N(μ, σ2),然后参照前面高斯分布转化为指数族的内容,将输出y的分布转化为ExponentialFamily(η)。参照第3个假设,我们有:

逻辑回归
在逻辑回归中,输出y是二值。因此,可以将y的分布模式化为伯努利分布,因此,有:φ = 1/(1 + e-η)。与普通最小二乘法类似,我们可以得到:

在泛化线性模型中,函数g(η)的值为分布的平均值,我们将函数g称为canonical response function。它的逆函数g-1称为canonical link function.
Softmax Regression
逻辑回归可以处理二分类的问题。而当处理多个分类的问题时,我们可以用softmax regression。考虑y可能有k个取值,y ∈ {1 2, . . . , k},针对每一个取值,有:
其中,φi是参数,i=1,2,3,...,k,φk=1-(φ1+φ2+···+φk-1)。因此,需要k-1个参数。
设T(y)∈Rk-1,T(y)i 是T(y)中第i个元素,有:T(y)i=I{y=i},其中:I{true} = 1, I{false} = 0. 因此,有:

由此,可以得到概率密度函数:

其中,

进一步,可得到


对于有m个样本的训练集,{(x(i), y(i)); i = 1, . . . ,m},它的对数似然函数为:


浙公网安备 33010602011771号