统计学习六:1.对数线性模型之逻辑回归

全文引用自《统计学习方法》(李航)

本节介绍的对数线性模型,主要包括逻辑斯谛回归(logistic regression)模型以及最大熵模型(maximum entropy model)。逻辑斯谛回归模型是统计学中十分经典的分类方法,而最大熵是概率学习中的一个准则,通过推广到分类问题,可以得到最大熵模型。本文主要介绍逻辑斯谛回归模型,并在以后详细介绍最大熵模型以及对数线性模型的优化方法。

1.逻辑斯谛分布

逻辑斯谛分布(logistic distribution)定义: 设X是连续的随机变量,则X服从逻辑斯谛分布是指其满足一下分布函数和密度函数:

\[\begin{aligned} F(x)=P(X\le x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}\\ f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} \end{aligned} \]

式中,\(\mu\)为位置参数,\(\gamma > 0\)为形状参数。
逻辑斯谛回归分布的密度函数和分布函数的形状如下图:

分布函数F(x)即逻辑斯谛函数,其图形是一条s形曲线,以\((\mu, \frac{1}{2})\)点为中心呈中心对称,即满足

\[F(-x+\mu)-\frac{1}{2}=-F(x-\mu)+\frac{1}{2} \]

形状参数\(\gamma\)越小,曲线在对称中心附近增长越快。

2.二项逻辑斯谛回归模型

二项逻辑斯谛回归模型(binomial logistic regression model)是一种分类模型,由条件概率P(Y|X)表示,其形式为参数化的逻辑斯谛分布。其中,随机变量X为实数,随机变量Y取值0或1。则二项逻辑斯谛回归模型形式如下:

\[\begin{aligned} P(Y=1|x)=\frac{\exp(w\cdot x+b)}{1+\exp(w\cdot x+b)}\\ P(Y=0|x)=\frac{1}{1+\exp(w\cdot x+b)} \end{aligned} \]

其中,\(x\in R^n\)为模型输入实例,\(Y\in\{0,1\}\)为模型输出,\(w\in R^n.b\in R\)为参数,w称为权值向量,b称为偏置,\(w\cdot x\)为两者的内积。
对于给定的输入实例x,按照上式进行计算,可以得到P(Y=1|x)和P(Y=0|x),则逻辑回归模型比较两者的大小,将实例分为概率较大的一类。
通常为了计算方便,会将权值向量和输入向量扩展为\(w=(w^{(1)},w^{(2)},\cdots,w^{(n)},b)^T,x=(x^{(1)},x^{(2)},\cdots,x^{(n)},1)^T\),同时,逻辑斯谛回归模型的形式如下:

\[\begin{aligned} P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}\\ P(Y=0|x)=\frac{1}{1+\exp(w\cdot x)} \end{aligned} \]

定义一个事件的几率(odds)为该事件发生的概率和该事件不发生的概率之比,若一个事件发生的概率为p,那么该事件的几率为\(\frac{p}{1-p}\),则该事件的对数几率(log odds)或logit函数是:

\[logit(p)=\log\frac{p}{1-p} \]

则对于逻辑斯谛回归模型而言,Y=1的几率为:

\[\log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x \]

即,在逻辑斯谛回归模型中,输出Y=1的对数几率是输入x的线性函数,或输出Y=1的对数几率是由输入x的线性函数表示的模型此模型即为逻辑斯谛回归模型。

3. 模型的参数估计

对于逻辑斯谛回归模型的学习流程,主要是对于给定的训练数据集\(T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\},x_i\in R^n,y_i\in\{0,1\}\),利用极大似然估计法来估计模型的参数,从而得到逻辑斯谛回归模型。
假设:\(P(Y=1|x)=\sigma(x),P(Y=0|x)=1-\sigma(x)\)
则似然函数为:

\[\prod_{i=1}^N[\sigma(x_i)]^{y_i}[1-\sigma(x_i)]^{1-y_i} \]

对数似然函数为:

\[\begin{aligned} L(w)&=\sum_{i=1}^N[y_i\log\sigma(x_i)+(1-y_i)\log(1-\sigma(x_i))]\\ &=\sum_{i=1}^N\left[y_i\log\frac{\sigma(x_i)}{1-\sigma(x_i)}+\log(1-\sigma(x_i))\right]\\ &=\sum_{i=1}^N[y_i(w\cdot x_i)-\log(1+\exp(w\cdot x_i))] \end{aligned} \]

此时,对L(w)求最大值,即得到w的估计值。
因此,模型的学习问题就变成了以对数似然函数为目标函数的最优化问题。通常采用梯度下降法或拟牛顿法来求取最优值。
假定w的极大似然估计值为\(\hat{w}\),则学习到的逻辑斯谛回归模型为:

\[\begin{aligned} P(Y=1|x)=\frac{\exp(\hat{w}\cdot x)}{1+\exp(\hat{w}\cdot x)}\\ P(Y=0|x)=\frac{1}{1+\exp(\hat{w}\cdot x)} \end{aligned} \]

4.多项逻辑斯谛回归模型

针对多分类问题,可以将二项分类的逻辑斯谛回归模型进行推广,称为多项逻辑斯谛回归模型。
假定离散型随机变量Y的取值集合为\(\{1,2,\cdots,K\}\),那么多项逻辑斯谛回归模型为:

\[\begin{aligned} P(Y=k|x)=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)},k=1,2,\cdots,K-1\\ P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)} \end{aligned} \]

其中\(x\in R^{n+1},w_k\in R^{n+1}\)
而二项逻辑斯谛回归模型的参数估计方法,也可以推广到多项逻辑斯谛回归模型中。

posted @ 2018-09-25 19:48  之语  阅读(661)  评论(0编辑  收藏  举报