多分类学习及纠错输出码
多分类学习及纠错输出码
拆分策略
经典的拆分策略一般分为三种:
- 一对一
- 一对多
- 多对多
``OvO指的是One vs. One,相应的由One vs. Remain的OvR,可以看出对于n个类别的多分类学习,OvO可以在$\frac{n(n-1)}{2}$个分类器中得到输出,而OvR只需训练n`个分类器。
ECOC
MvM中有一种通过编码的方式进行拆分的技术,称为纠错输出码(ECOC)。观察以下编码矩阵:
| 类别 | 分类器$f_1$ | 分类器$f_2$ | 分类器$f_3$ | 海明距离 | 欧氏距离 |
|---|---|---|---|---|---|
| $C_1$ | +1 | -1 | -1 | 1 | 2 |
| $C_2$ | +1 | +1 | -1 | 2 | $2\sqrt{2}$ |
| $C_3$ | +1 | +1 | +1 | 3 | $2\sqrt{3}$ |
| 样例 | -1 | -1 | -1 | \ | \ |
+1代表该类为正类,-1表示为反类,一般来说还可能存在停用类
根据海明距离和欧氏距离判断最终样例的输出类别,越小表明分类效果越好。
从编码的角度出发,可以看到ECOC本身具有一定的纠错能力,具有对错误分类的容忍能力:
- 当$f_2$出现错误,最终得到的输出类别仍是$C_1$,因为在划分过程当中分类器对所有样例判断都出现错误
- 当编码越长,对距离计算的影响越小
因此编码越长,纠错能力越强。
类别不平衡问题
类别不平衡问题指的是分类任务中不同类别的训练样例差别很大。这里假设正例远远小于反例。
无偏采样
定义分类器的划分策略为
$$
当\frac{y}{1-y}>\frac{m+}{m-},预测为正例
$$
$m+$表示样例中的正例数量,$m-$表示样例中的反例数量。
再放缩
$$
\frac{y'}{1-y'} = \frac{y}{1-y} \times\frac{m-}{m+}
$$
再放缩:
- 通过“欠采样”和“过采样”对训练集进行调整,“欠采样”指去除一些反例使得正反例数量相当,“过采样”指增加正例使得其相当。
- 使用原训练集继续训练,在对实例分类时采用$\frac{y'}{1-y'} = \frac{y}{1-y} \times\frac{m-}{m+}$作为策略。
这里的再放缩属于代价敏感学习,$m-$和$m+$可以用$cost+$和$cost-$进行表示,$cost+$表示将正类误判为负类的代价,$cost-$指的时将负类判断为正类的代价。

浙公网安备 33010602011771号