逻辑回归

一、逻辑回归原理

　　前面我们讲的线性回归模型是求输出特征向量Y和输入样本矩阵X之间的线性关系系数 $θ$

$θ$

这个函数的图像如下：

　　Sigmoid 函数是一个 S 形曲线，它可以将任意实数值映射到介于 0 和 1 之间的值，但并不会取到 0/1。然后使用阈值分类器将 0 和 1 之间的值转换为 0 或 1。用图像描述 logistic 回归得出预测所需的所有步骤：

来源：http://m.elecfans.com/article/691754.html

　　之所以采用这个假设函数主要原因是：通过观察图形我们可以发现sigmoid函数有一个很好的性质：即当z趋于正无穷时， $g (z)$

下面考虑损失函数：

　　前面我们介绍了线性回归的损失函数是用模型误差的平方和定义的。但是，由于逻辑回归不是连续的，所以在这里这个定义并不适用。假设我们的样本输出是0或1两类。这里，h_θ(x)表示为结果取1的概率，有：

　　又因为样本之间相互独立，那么其联合分布为各个边缘分布的乘积，从而得到似然函数的表达式为：

　　为了方便求解，我们队上式两边同时取对数，化简后结果为：

　　最大似然估计的目标是求似然函数 L(θ)，即所有样本出现的总概率)最大时，对应的参数 θ 的组合，而我们希望构造一个代价函数来衡量我们在某组参数下预估的结果和实际结果的差距，当代价函数值最小的时候，相应的参数w就是我们希望的最优解，

即求 J( θ) = -L(θ)的最小值。

　　因此，我们的损失函数可以构造为如下形式：

$θ$

$θ$ 不仅能预测出类别，还能得到近似概率的预测，对许多需要利用概率辅助决策的任务很有用

$θ$ 如果特征离远点较远，Sigmoid梯度将变得很小，参数就很难得到更新

$θ$

$θ$ $α$

$θ$

$θ$

$θ$

$θ$ 只从多数类中随机选择其中一些数据，而使用少数类所具有的示例数据。这个选择可以用来保持类的概率分布。这是很容易的！我们仅仅靠减少示例样本就平衡了我们的数据！；或者尽量避免选择临近对方的样本，这种欠采样基于相邻、聚类等方法进行

　　过采样：将给少数类创建数个副本，以便少数类和多数类相同的示例数量。副本的数量要达到使少数类对准确率的影响可以一直维持。我们只是在没有获得更多数据的情况下整理了我们的数据集！如果发现很难有效地设置类权重，那么抽样可以替代类平衡。

　　用图像表示如下：

$θ$

$θ$ 通过改变每个训练样本在计算损失时的权重来平衡我们的数据。例如：购买房子，不买的比买的要多，但购买类的准确率对我们来说最重要，那么该类中的训练示例应该对损失函数有显著的影响。那么，我们可以简单地通过将每个示例的损失乘以取决于它们的类的某个因子来给类赋权，即在模型中设置一个class_weight变量，其值为{‘buy’:0.75,’don’t buy’:0.25}。尝试使用权重平衡法来使所有的类都对我们的损失函数产生一样大的影响，而不必花费时间和资源去收集更多的少数类实例。

$θ$

　　集成学习的基本思想就是把多数样本进行划分，然后和少数样本组合成小的训练集，然后生成学习器，最后再集成。例如经典的easyembedding，balancecascade就是经典的代表。

$θ$

　　LogisticRegression和LogisticRegressionCV默认就带了正则化项。penalty参数可选择的值为"l1"和"l2".分别对应L1的正则化和L2的正则化，默认是L2的正则化。在调参时如果我们主要的目的只是为了解决过拟合，一般penalty选择L2正则化就够了。但是如果选择L2正则化发现还是过拟合，即预测效果差的时候，就可以考虑L1正则化。另外，如果模型的特征非常多，我们希望一些不重要的特征系数归零，从而让模型系数稀疏化的话，也可以使用L1正则化。

　　penalty参数的选择会影响我们损失函数优化算法的选择。即参数solver的选择，如果是L2正则化，那么4种可选的算法{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’}都可以选择。但是如果penalty是L1正则化的话，就只能选择‘liblinear’了。这是因为L1正则化的损失函数不是连续可导的，而{‘newton-cg’, ‘lbfgs’,‘sag’}这三种优化算法时都需要损失函数的一阶或者二阶连续导数。而‘liblinear’并没有这个依赖。

（2）优化算法选择参数：solver

　solver参数决定了我们对逻辑回归损失函数的优化方法，有4种算法可以选择，分别是：

　　 liblinear：使用了开源的liblinear库实现，内部使用了坐标轴下降法来迭代优化损失函数。

　　 lbfgs：拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。

　　 newton-cg：也是牛顿法家族的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。

　　 sag：即随机平均梯度下降，是梯度下降法的变种，和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度，适合于样本数据多的时候。

　　newton-cg, lbfgs和sag这三种优化算法时都需要损失函数的一阶或者二阶连续导数，因此不能用于没有连续导数的L1正则化，只能用于L2正则化。而liblinear通吃L1正则化和L2正则化

（3）分类方式选择参数：multi_class

　multi_class参数决定了我们分类方式的选择，有 ovr和multinomial两个值可以选择，默认是 ovr。

　　ovr即前面提到的one-vs-rest(OvR)，而multinomial即前面提到的many-vs-many(MvM)。如果是二元逻辑回归，ovr和multinomial并没有任何区别，区别主要在多元逻辑回归上。

　　vR的思想很简单，无论你是多少元逻辑回归，我们都可以看做二元逻辑回归。具体做法是，对于第K类的分类决策，我们把所有第K类的样本作为正例，除了第K类样本以外的所有样本都作为负例，然后在上面做二元逻辑回归，得到第K类的分类模型。其他类的分类模型获得以此类推

　　而MvM则相对复杂，这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类，我们每次在所有的T类样本里面选择两类样本出来，不妨记为T1类和T2类，把所有的输出为T1和T2的样本放在一起，把T1作为正例，T2作为负例，进行二元逻辑回归，得到模型参数。我们一共需要T(T-1)/2次分类。

（4）：类型权重参数：class_weight

　　lass_weight参数用于标示分类模型中各种类型的权重，可以不输入，即不考虑权重，或者说所有类型的权重一样。如果选择输入的话，可以选择balanced让类库自己计算类型权重，或者我们自己输入各个类型的权重，比如对于0,1的二元模型，我们可以定义class_weight={0:0.9, 1:0.1}，这样类型0的权重为90%，而类型1的权重为10%。

（5）样本权重参数：sample_weight

　　由于样本不平衡，导致样本不是总体样本的无偏估计，从而可能导致我们的模型预测能力下降。遇到这种情况，我们可以通过调节样本权重来尝试解决这个问题。调节样本权重的方法有两种，第一种是在class_weight使用balanced。第二种是在调用fit函数时，通过sample_weight来自己调节每个样本权重。在scikit-learn做逻辑回归时，如果上面两种方法都用到了，那么样本的真正权重是class_weight*sample_weight.

来源：https://www.cnblogs.com/pinard/p/6035872.html

发表于 2018-12-21 11:00 zoeyn 阅读(1662) 评论(0) 收藏举报

公告