3.3-3.6

3.3 对数几率回归
若要做分类任务,只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。

单位阶跃函数:

即若预测值z大于0就判为正例,小于0则判为反例,预测值为临界值0则可任意判别。

对数几率函数:是一种“Sigmoid函数”,它将z值转化为一个接近0或1的y值,并且其输出值在z=0附近变化很陡。

将对数几率函数作为代入广义线性模型,得到

其可变化为

几率:将y视为样本x作为正例的可能性,则1-y是其反例可能性,两者的比值。其反映了x作为正例的相对可能性。
对数几率:几率取对数,即

由此可以看出,这实际上是在用线性回归模型的预测结果去逼近真实标记的对数几率,因此,其对应的模型称为“对数几率回归”。虽然它的名字是“回归”,但实际上是一种分类学习方法

优点:

  • 直接对分类可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题;
  • 它不仅预测出“类别”,而是可得到近似概率预测,这对许多需利用概率辅助决策的任务很有用;
  • 此外,对率回归求解的目标函数是任意阶可导的凸函数有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解。

确定式中w和b的方法:
将式
中的y视为类后验概率估计,则式可写为

显然有

于是我们可以通过“极大似然法”来估计w和b。给定数据集,对率回归模型最大化“对数似然

即令每个样本属于其真实标记的概率越大越好。

为便于讨论,令,则可简写为。再令,则似然项可重写为

最大化式(3.25)等价于最小化

上式是关于β的高阶可导连续凸函数,根据凸优化理论,经典的数值优化算法,如梯度下降法,牛顿法等都可以求得其最优解,于是就得到

3.4 线性判别分析

线性判别分析:是一种经典的线性学习方法,其基本思想为:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分析师,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

二维示意图如下:

给定数据集,令分别表示第类示例的集合均值向量协方差矩阵。若将数据投影到直线上,则两类样本的中心在直线上的投影分别为。由于直线是一维空间,因此均为实数。
想让同类样本点的投影点尽可能接近,可以让各类的协方差之和尽可能小,即尽可能小;而欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大,即尽可能大。同时考虑二者,则可以得到欲最大化的目标


定义了“类内散度矩阵

以及“类间散度矩阵

则可以得到

这就是LDA欲最大化的目标,即的“广义瑞利商

求解w时,注意到上式的分子和分母都是关于w的二次项,所以其解与w的长度无关,只与其方向有关,且不失一般性。令,那么

使用拉格朗日乘子法,则有



代入得

考虑到数值解的稳定性,在实践中通常是对进行奇异值分解,即,这里是一个实对角矩阵,其对角线上的元素是的奇异值,然后再由得到

可以将LDA推广到多分类任务中。假定存在N个类,且第i类示例数为m,定义“全局散度矩阵

其中所有示例的均值向量。将类内散度矩阵重定义为每个类别的散度矩阵之和,即

其中

所以有

显然,知道了 三者中的任何两个即可实现多分类LDA。

常用的一种实现方法是优化目标

其中表示矩阵的迹

通过如下广义特征值问题求解:

W的闭式解则是的N-1个最大非零广义特征值所对应的特征向量组成的矩阵

若将W视为一个投影矩阵,则多分类LDA将样本投影到N-1维空间,N-1通常远小于数据原有的属性数。于是,可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术

3.5 多分类学习

现实中我们经常遇到不只两个类别的分类问题,即多分类问题。在这种情形下,我们常常运用“拆分”的策略,即将多分类任务拆解为多个二分类任务求解。具体来说,先对问题进行拆分,然后为拆分出的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。
最为经典的拆分策略有三种:“一对一”(OvO)、“一对其余” (OvR)和“多对多”(MvM)。

  • OvO:给定数据集D,假定其中有N个真实类别,将这N个类别进行两两配对(一个正类/一个反类),从而产生N(N-1)/2个二分类学习器。在测试阶段,将新样本放入所有的二分类学习器中测试,得出N(N-1)/2个分类结果,通过投票产生最终的分类结果。
  • OvR:给定数据集D,假定其中有N个真实类别,每次取出一个类作为正类,剩余的所有类别作为一个新的反类,从而产生N个二分类学习器。在测试阶段,得出N个结果,若仅有一个学习器预测为正类,则对应的类标作为最终分类结果。

容易看出,OvO的存储开销和测试时间通常比OvR更大。在类别很多时,OvO的训练时间开销通常比OvR更小。预测性能取决于具体的数据分布,在多数情况下两者差不多。

  • MvM:给定数据集D,假定其中有N个真实类别,每次取若干个类作为正类,若干个类作为反类(通过 ECOC码给出,编码),若进行了M次划分,则生成了M个二分类学习器。在测试阶段(解码),得出M个结果组成一个新的码,最终通过计算海明/欧式距离选择距离最小的类别作为最终分类结果。

ECOC是将编码的思想引入类别拆分,并尽可能在解码过程中具有容错性。ECOC工作过程主要分为两步:

  • 编码:对N个类别做M次划分,每次划分将一部分类别划分为正类,一部分划分为反类,从而形成一个二分类训练集;这样一共产生M个训练集,可训练出M个分类器。
  • 解码:M个分类器分别对测试样本进行预测,这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果。

类别划分通过“编码矩阵”指定。编码矩阵有多种形式,常见的有二元码和三元码。二元码将每个类别分别指定为正类和反类,三元码在正、反类之外,还指定“停用类”。

3.6 类别不平衡问题

类别不平衡:指分类问题中不同类别的训练样本相差悬殊的情况。


这就是类别不平衡学习的一个基本策略——“再缩放”,常见的做法有三种:

  1. 直接对训练集里的反类样例进行“欠采样”,即去除一些反例使得正、反例数目接近,然后再进行学习。
  2. 对训练集里的正类样例进行“过采样”,即增加一些正例使得正、反例数目接近,然后再进行学习。
  3. 直接基于原数据集进行学习,但在用训练好的分类器进行预测时,将“再缩放”的式子嵌入到其决策过程中,称为“阙值移动”。
posted @ 2024-11-15 20:58  退堂鼓演奏大师  阅读(25)  评论(0)    收藏  举报