逻辑回归和最大熵模型

逻辑回归

因变量随着自变量变化而变化。

多重线性回归是用回归方程描述一个因变量与多个自变量的依存关系,简称多重回归,其基本形式为:Y= a + bX1+CX2+*+NXn。

二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

逻辑分布

二项逻辑回归

如何求逻辑回归中的参数W

首先介绍似然函数求出W以后,即求出了相应的逻辑回归模型

多项逻辑回归

多项是指Y的取值有多项,不再是两个.

优缺点:

优点:

1)容易使用和解释,实用价值高的常用市场预测方法;

2)它是直接对分类可能性建模,无需事先假设数据分布,这样就避免了假设分布不准确问题;

3)可以适用于连续性和类别性自变量;

缺点:

1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转.​需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;

2)预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着​log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感.导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值.

最大熵模型

最大熵原理

注意:当X是均匀分布的时候,H(p)=log|x|,取最大值

根据已有的数据,可以求出P~(X,Y),P~(X),以及特征函数f(x,y).拥有上述变量以后,只要满足下列等式的model都称为最大熵模型

最大熵模型的学习

上面对于这个约束最优化问题进行了简单的改写,这样便于我们统一理解这个问题(凸优化问题的统一形式),也便于程序的求解。

先应用拉格朗日定理,然后将其转换到对偶问题。其中P为变量,在集合C中取值。

其中的对于左边,是原带约束优化问题的数学形式,只是将他写成了一个式子,首先在固定P的时候,求W使L(p,W)最大,这相当于在尽量去满足它的约束。然后是min,就相当于在满足约束的情况下求最小值,即原问题的表述。

对于右边,则是对偶问题的定义,minL(P,W)是对偶函数,整个右边式子定义为原问题的对偶问题。

其中的P属于C集合,P中的唯一变量就是P(y|x),因此需要对P(y|x)求导。

上面求出了Pw(y|x),其中的分母exp(1-w0)在归一化的过程中抵消掉了。

上面的Pw(y|x)相当于最大熵模型(只是具体形式,其中的Wi目前还是未知数),接下来就需要求Wi,Wi可以通过对偶问题最外层的maxw求出。这样就求出了最终的最大熵模型Pw(y|x).还不明白的同学可以对照《统计学习方法》中的具体例子来计算一遍。

极大似然估计

总结

最大熵模型与逻辑斯谛回归模型有类似的形式,它们又 称为对数线性模型(log linear model). 模型学习就是在 给定的训练数据条件下对模型进行极大似然估计或正则 化的极大似然估计。

转自于:http://www.dongzhuoyao.com/logistic-regression-and-max-entropymodel/

posted @ 2017-02-04 10:34  Little_Rookie  阅读(3772)  评论(0编辑  收藏  举报