多分类学习及纠错输出码

拆分策略

经典的拆分策略一般分为三种：

``OvO指的是One vs. One，相应的由One vs. Remain的OvR，可以看出对于n个类别的多分类学习，OvO可以在$\frac{n(n-1)}{2}$个分类器中得到输出，而OvR只需训练n`个分类器。

MvM中有一种通过编码的方式进行拆分的技术，称为纠错输出码(ECOC)。观察以下编码矩阵：

类别	分类器$f_1$	分类器$f_2$	分类器$f_3$	海明距离	欧氏距离
$C_1$	+1	-1	-1	1	2
$C_2$	+1	+1	-1	2	$2\sqrt{2}$
$C_3$	+1	+1	+1	3	$2\sqrt{3}$
样例	-1	-1	-1	\	\

+1代表该类为正类，-1表示为反类，一般来说还可能存在停用类

根据海明距离和欧氏距离判断最终样例的输出类别，越小表明分类效果越好。

从编码的角度出发，可以看到ECOC本身具有一定的纠错能力，具有对错误分类的容忍能力：

因此编码越长，纠错能力越强。

类别不平衡问题指的是分类任务中不同类别的训练样例差别很大。这里假设正例远远小于反例。

定义分类器的划分策略为
$$
当\frac{y}{1-y}>\frac{m^+}{m-},预测为正例
$$
$m^{+$表示样例中的正例数量，$m}-$表示样例中的反例数量。

$$
\frac{y'}{1-y'} = \frac{y}{1-y} \times\frac{m^-}{m+}
$$

再放缩：

这里的再放缩属于代价敏感学习，$m^-$和$m+$可以用$cost^+$和$cost-$进行表示，$cost^{+$表示将正类误判为负类的代价，$cost}-$指的时将负类判断为正类的代价。

posted @ 2024-07-27 00:36 Sion258 阅读(122) 评论(0) 收藏举报

刷新页面返回顶部