多分类学习及纠错输出码

多分类学习及纠错输出码

拆分策略

经典的拆分策略一般分为三种:

  • 一对一
  • 一对多
  • 多对多

``OvO指的是One vs. One,相应的由One vs. RemainOvR,可以看出对于n个类别的多分类学习,OvO可以在$\frac{n(n-1)}{2}$个分类器中得到输出,而OvR只需训练n`个分类器。

ECOC

MvM中有一种通过编码的方式进行拆分的技术,称为纠错输出码(ECOC)。观察以下编码矩阵:

类别 分类器$f_1$ 分类器$f_2$ 分类器$f_3$ 海明距离 欧氏距离
$C_1$ +1 -1 -1 1 2
$C_2$ +1 +1 -1 2 $2\sqrt{2}$
$C_3$ +1 +1 +1 3 $2\sqrt{3}$
样例 -1 -1 -1 \ \

+1代表该类为正类,-1表示为反类,一般来说还可能存在停用类

根据海明距离和欧氏距离判断最终样例的输出类别,越小表明分类效果越好。

从编码的角度出发,可以看到ECOC本身具有一定的纠错能力,具有对错误分类的容忍能力:

  • 当$f_2$出现错误,最终得到的输出类别仍是$C_1$,因为在划分过程当中分类器对所有样例判断都出现错误
  • 当编码越长,对距离计算的影响越小

因此编码越长,纠错能力越强。

类别不平衡问题

类别不平衡问题指的是分类任务中不同类别的训练样例差别很大。这里假设正例远远小于反例。

无偏采样

定义分类器的划分策略为
$$
当\frac{y}{1-y}>\frac{m+}{m-},预测为正例
$$
$m+$表示样例中的正例数量,$m-$表示样例中的反例数量。

再放缩

$$
\frac{y'}{1-y'} = \frac{y}{1-y} \times\frac{m-}{m+}
$$

再放缩:

  • 通过“欠采样”和“过采样”对训练集进行调整,“欠采样”指去除一些反例使得正反例数量相当,“过采样”指增加正例使得其相当。
  • 使用原训练集继续训练,在对实例分类时采用$\frac{y'}{1-y'} = \frac{y}{1-y} \times\frac{m-}{m+}$作为策略。

这里的再放缩属于代价敏感学习,$m-$和$m+$可以用$cost+$和$cost-$进行表示,$cost+$表示将正类误判为负类的代价,$cost-$指的时将负类判断为正类的代价。

posted @ 2024-07-27 00:36  Sion258  阅读(122)  评论(0)    收藏  举报