学习理论:预测器-拒绝器多分类弃权学习

目前确定去京大读博了,预计方向是学习理论(Learning Theory)。熟悉我的朋友可能知道,虽然我读研期间的方向主要是联邦学习和推荐系统,但是我也会更新一些理论相关的博客,因为我确实对理论方向比较感兴趣。目前准备10月份左右入学,在这之前接受导师的线上指导开始科研。现在就以以这篇博客做为我PhD科研的开始吧(#^.^#)。

1 导引

弃权学习(learning with abstention) [1]主要是为了使分类器在学习过程中可能出现的误导性或者不正确的信息时(这常被称为“幻觉”),能够对做出预测进行弃权。目前,弃权学习的方法主要可以分为以下几种:

  • 基于置信度的方法(confidence-based methods)。这种方法在预训练模型返回的分数低于某个阈值\(\theta\)时弃权。
  • 选择性分类(selective classification)。设置一个预测器和一个选择器,并定义被期望的选择或覆盖率归一化的选择风险或损失。
  • 预测器-拒绝器公式(predictor-rejector formulation)。同时学习一个预测器和一个拒绝器,它们来自不同的函数族,这种方法显式地考虑了弃权花费\(c\),当学习器弃权时将导致大小为\(c\)的损失;
  • 基于分数的公式(score-based formulation)。对多分类类别进行增广(多一个拒绝标签类型),当分配给拒绝标签的分数最高时进行弃权。

本文关注预测器-拒绝器形式,也即显式地建模弃权花费的一种方法。那么该如何对多分类弃权问题进行形式化,什么时候适合弃权呢?

我们先来考虑有监督二分类弃权学习场景。在这种场景中标签为\(\mathcal{Y}=\{-1, +1\}\),样本独立同分布地采样自\(\mathcal{X}\times \mathcal{Y}\)空间上的固定未知分布\(p(x, y)\)。给定实例\(x\in \mathcal{X}\),学习器若选择对预测\(x\)的标签进行弃权,则产生一个损失\(c(x) \in [0, 1]\)做为代价;否则,使用预测器\(h\)做出预测\(h(x)\)并产生一个标准的0-1损失\(\mathbb{I}_{yh(x)\leqslant 0}\)(其中\(y\)为真实标签)。由于随机猜测可以达到\(\frac{1}{2}\)的期望代价,拒绝操作只有在\(c(x) < \frac{1}{2}\)时是合理的。

我们使用预测器-拒绝器对\((h, r)\)来建模学习器,其中函数\(r: \mathcal{X} \rightarrow \mathbb{R}\)使得点\(x\in \mathcal{X}\)\(r(x)\leqslant 0\)时被拒绝,假设\(h: \mathcal{X} \rightarrow \mathbb{R}\)预测未被拒绝的点的标签(体现为\(h(x)\)的符号)。对任意\((x, y)\in \mathcal{X}\times \mathcal{Y}\)\((h, r)\)的弃权损失[2]定义如下:

\[L_{\text{abst}}(h, r, x, y) = \underbrace{\mathbb{I}_{yh(x)\leqslant 0}\mathbb{I}_{r(x) > 0}}_{\text{不弃权}} + \underbrace{c(x) \mathbb{I}_{r(x)\leqslant 0}}_{\text{弃权}} \]

假定对于学习器来说弃权花费\(c(x)\)是已知的。在接下来的分析中,我们假设\(c\)是一个常值函数,但我们的部分分析可以应用于更普遍的情况。

\(\mathcal{H}\)\(\mathcal{R}\)为两个从\(\mathcal{X}\)\(\mathbb{R}\)的函数构成的函数族。此外,我们假设带标签样本集\(S=((x_1, y_1), \cdots, (x_m, y_m))\)中的每个样本都独立同分布地采自\(p(x, y)\)。则学习问题即为确定一个\((h, r)\in \mathcal{H}\times \mathcal{R}\)以使得下列\(L_{\text{abst}}\)-期望弃权损失\(R_{L_{\text{abst}}}(h, r)\)(也即泛化误差)尽可能小:

\[R_{L_{\text{abst}}}(h, r) = \mathbb{E}_{p(x, y)}\left[L_{\text{abst}}(h, r, x, y)\right] \]

\(R_{L_{\text{abst}}}^{*}(\mathcal{H}, \mathcal{R}) = \inf_{h\in \mathcal{H}, r\in \mathcal{R}}R_{L_{\text{abst}}}(h, r)\)为其在\(\mathcal{H}\times \mathcal{R}\)上的下确界。而使得\(R_{L_{\text{abst}}}(h, r)\)在所有可测函数构成的集合上达到其下确界的预测器\(h^*\)和拒绝器\(r^*\)被称为贝叶斯最优(Bayes-optimal) 的分类器和拒绝器[3](注意:\((h^*, r^*)\)不一定在\(\mathcal{H}\times \mathcal{R}\)中),它们由下式给出:

\[\text{h}^*(x) = \underset{y\in \mathcal{Y}}{\text{arg max}}\space p(y\mid x), \quad r^*(x) = \max_{y\in \mathcal{Y}}p(y\mid x) - (1 - c) \]

其中\(\text{h}^*(x) = \text{sign}\left[h(x)\right]\)输出分类标签,\(p(y\mid x)\)为数据本身的条件概率分布(注意不是模型分布)。

这里\(r^*\)的表达公式中的\(c\)可以直观地理解为频率派假设检验中的显著性水平[4](而\(1 - c\)则可理解为置信水平),\(r^*\)需要使得学习器能够在\(\max_{y\in \mathcal{Y}}p(y\mid x)\)大于\((1 - c)\)的时候选择使用预测器\(h\)进行预测,否则选择拒绝。

贝叶斯最优的分类器和拒绝器对应的泛化误差被称为贝叶斯最优误差(Bayes-optimal error)

\[R^*_{L_\text{abst}} = R_{L_{\text{abst}}}(h^*, r^*) = \inf_{h, r}R_{L_{\text{abst}}}(h, r) \]

然而,对于大多数假设集而言,优化期望弃权损失\(R_{L_{\text{abst}}}(h, r)\)是难以处理的(intractable)。因此,在这种情况下学习算法需要依赖于代理损失(surrogate loss )。那么,一个重要问题就是什么种类的代理损失能够被用于替代目标弃权损失。直觉上,一个代理损失需要易于优化,且其最小化会导向目标损失的最小化。术语校准(calibration) 就用于定义这样一种损失函数,这种损失函数能够确保风险最小化的预测器能够成为贝叶斯最优分类器,这种性质被称为贝叶斯一致性(Bayes-consistency)。下图直观地展现了校准的代理损失的性质[5](其中目标损失\(\phi_{\text{01}}\)是二分类中常见的0-1损失,\(\phi\)是其代理损失):

出于理论分析目的,直接定义预测器和拒绝器的校准更为方便(基于它们是否是贝叶斯最优的)。因此,若我们设\(h^*\)为贝叶斯最优的预测器,\(r^*\)为贝叶斯最优的拒绝器,则我们可定义如下关于校准的符号:

定义 1 预测器-拒绝器的校准 我们称\((h, r): \mathcal{X}\rightarrow \mathbb{R}\times \mathbb{R}\)是校准的,如果\(R_{L_{\text{abst}}}(h, r) = R_{L_{\text{abst}}}(h^*, r^*)\)

在本文中,我们分别考虑预测器和拒绝器的校准,这使得我们更好地理解带拒绝分类的难度来自于何处。

定义 2 预测器的分类校准 我们称\(h: \mathcal{X}\rightarrow \mathbb{R}\)是预测-校准的,如果\(\text{h}(x) = \text{h}^*(x)\)\(\mathcal{X}\)上几乎处处成立。

定义 3 拒绝器的拒绝校准 我们称\(r: \mathcal{X}\rightarrow \mathbb{R}\)是拒绝-校准的,如果\(\text{sign}[r(x)] = \text{sign}[r^*(x)]\)对所有满足\(r^*(x) \neq 0\)\(x\in \mathcal{X}\)成立。

通过这些定义与损失函数\(L_{\text{abst}}\)的形式可以看到,如果\(h\)是预测-校准的且\(r\)是拒绝-校准的,则\((h, r)\)是校准的。

如下列的代理损失\(L_{\text{PB}}(h, r, x, y)\)

\[L_{\text{PB}}(h, r, x, y) = \widetilde{\phi} (\alpha [yh(x) - r(x)]) + c\phi (\beta r(x)) \]

这里\(\widetilde{\phi}\)\(\phi\)\(\mathbb{I}_{[z\leqslant 0]}\)的凸上界。通过选择适当的参数\(\alpha, \beta > 0\),Cortes等人[2]基于指数损失\(\widetilde{\phi}(z) = \phi(z) = \exp (-z)\)导出了一个校准的结果。然而,Ni等人[6]指出,这个代理损失只在二分类的情况下可行,想要将这个代理损失扩展到多分类的情况下是有挑战性的,于是转而采用基于置信度分数的方法来处理多分类的情况。

本文作者尝试在多分类的情况下,为预测器-拒绝器框架下的弃权学习定义贝叶斯一致的代理损失[1]。具体地,本文作者引入了一些新的代理损失族并为其证明了强的非渐近和假设集特定的一致性保障。这些保障为弃权损失函数的估计误差提供了代理损失形式的凸上界。

在本文中,我们将在两种不同的设置下讨论预测器-拒绝器弃权代理损失,分别是单阶段两阶段。在单阶段的设置下,预测器和拒绝器同时学习;而在两阶段的设置下(在实际应用中很重要),在第一阶段中预测器使用标准的代理损失(例如交叉熵损失)来学习(例如大的预训练模型),然后在第二阶段预测器被固定,只需要学习拒绝器。

我们会为一些预测器-拒绝器框架中的弃权代理损失\(L\)证明 \((\mathcal{H}, \mathcal{R})\) - 一致性界(\((\mathcal{H}, \mathcal{R})\) -consistency bound)。这些不等式给出了关于假设\(h\in \mathcal{H}\)和拒绝器\(r \in \mathcal{R}\)的预测器-拒绝器弃权损失\(L_{\text{abst}}\)的上界(以它们的弃权代理损失\(L\)形式)。它们满足下列形式:

\((\mathcal{H}, \mathcal{R})\) - 一致性界

\[R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^{*}(\mathcal{H}, \mathcal{R}) \leqslant f(R_L(h, r) - R_{L}^{*}(\mathcal{H}, \mathcal{R})) \]

这里\(f\)是非递减函数,\(R_{L}^{*}(\mathcal{H}, \mathcal{R}) = \inf_{h\in \mathcal{H}, r\in \mathcal{R}}R_{L}(h, r)\)\(R_L(h, r)\)\(\mathcal{H}\times \mathcal{R}\)上的下确界。因此,当代理超额误差(surrogate excess error) \(\left(R_L\left(h, r\right) - R_{L}^{*}\left(\mathcal{H}, \mathcal{R}\right)\right)\)减少到\(\epsilon\)时,目标超额误差(target excess error) \(\left(R_{L_{\text{abst}}}\left(h, r\right) - R_{L_{\text{abst}}}^{*}\left(\mathcal{H}, \mathcal{R}\right)\right)\)会被\(f(\epsilon)\)所界定。在这些界中会出现的一个重要的项为可最小化差距(minimizability gap),其定义为\(M_{L}(\mathcal{H}, \mathcal{R}) = R_{L}^{*}(\mathcal{H}, \mathcal{R}) - \mathbb{E}_{p(x)}\left[\inf_{h\in \mathcal{H}, r\in \mathcal{R}}\mathbb{E}_{p(y\mid x)}[L(h, r, X, y)]\right]\),也即假设类最优误差和最小条件\(L\)-风险的期望的差值。我们不能企求去估计或最小化该项,它的值只依赖于分布\(\mathcal{D}\)、假设集\(\mathcal{H}\)和拒绝函数集\(\mathcal{R}\)。当损失函数\(L\)只依赖于\(h(x)\)\(r(x)\)(对在大多数应用中使用的损失函数都成立),且当\(\mathcal{H}\)\(\mathcal{R}\)包括了所有可测函数时,可最小化差距对任意分布\(\mathcal{D}\)都为0。然而,它对于受限的假设集\(\mathcal{H}\)\(\mathcal{R}\)一般是非0的。可最小化差距能够被逼近误差 (approximation error)\(\mathcal{A}_{L}(\mathcal{H}, \mathcal{R}) = R_{L}^{*}(\mathcal{H}, \mathcal{R}) - \mathbb{E}_{p(x)}\left[\inf_{h, r}\mathbb{E}_{p(y\mid x)}[L(h, r, X, y)]\right]\)所界定(等式右边第二项也即贝叶斯最优误差\(R^*_L\)),区别是逼近误差的\(\inf\)取遍所有可测函数。不过,可最小化差距是个更好的量并给出更好的理论保障。

2 单阶段预测器-拒绝器代理损失

在多分类情形下,标签\(\mathcal{Y} = \{1, \cdots, n\}\)\(n\geqslant 2\))。我们取\(\text{h}(x) = \underset{y\in \mathcal{Y}}{\text{arg max}}\space {h(x)}_y\)。则类比二分类情形,对于多分类问题,我们同样可以定义如下的预测器-拒绝器弃权损失:

\[L_{\text{abst}}(h, r, x, y) = \underbrace{\mathbb{I}_{\text{h}(x) \neq y}\mathbb{I}_{r(x) > 0}}_{\text{不弃权}} + \underbrace{c(x) \mathbb{I}_{r(x)\leqslant 0}}_{\text{弃权}} \]

注意,和之前二分类情况的不同之处在于\(\mathbb{I}_{yh(x)\leqslant 0}\)变为了\(\mathbb{I}_{\text{h}(x) \neq y}\),这里\(\text{h}(x)\)直接输出分类标签。设\(\mathcal{l}\)为在标签\(\mathcal{Y}\)上定义的0-1多分类损失的代理损失,则我们可以在此基础上进一步定义弃权代理损失\(L\)

\[L(h, r, x, y) = \mathcal{l}(h, x, y)\phi(-\alpha r(x)) + \psi(c) \phi(\beta r(x)) \]

其中\((x, y)\in \mathcal{X}\times \mathcal{Y}\)\(\psi\)是非递减函数,\(\phi\)是非递增辅助函数(做为\(z \mapsto \mathbb{I}_{z \leqslant 0}\)的上界),\(\alpha\)\(\beta\)为正常量。上述的\(L\)可视为Cortes等人提出的二分类弃权代理损失\(L_{\text{PB}}\)的多分类推广版本。\(L_{\text{PB}}\)可视为将\(\mathcal{l}\)损失设置为基于间隔的二分类损失\(\widetilde{\phi}(yh(x))\),并设置\(\psi(z) = z\)

\[L_{\text{bin}}(h, r, x, y) = \widetilde{\phi}(yh(x))\phi(-\alpha r(x)) + c \phi(\beta r(x)) \]

最小化带正则项的\(L_{\text{bin}}\),并使用基于间隔的损失\(\widetilde{\phi}\)(例如指数损失\(\widetilde{\phi}_{\text{exp}}(z) = \exp (-z)\)以及合页损失\(\widetilde{\phi}_{\text{hinge}}(z) = \max\{1 - z, 0\}\)(合页损失可参见博客《统计学习:线性支持向量机(Pytorch实现) 》)),可以在二分类情形下达到SOTA的结果。然而,我们下面会看到推广到多分类的弃权代理损失\(L\)对代理损失\(\mathcal{l}\)的选择施加了更加严格的条件,这将诸如多分类指数损失的代理损失给排除掉了。不过,我们也会看到一些其它的损失函数满足该条件,例如多分类合页损失。下面,为了简便起见,我们主要对\(\phi(z) = \exp(-z)\)进行分析,尽管相似的分析也可以应用于其它函数\(\phi\)。我们先展示负面的结果,排除掉一些弃权代理损失\(L\),这些弃权代理损失基于不满足特定条件的损失\(\mathcal{l}\)

下面,我们假定假设集\(\mathcal{H}\)对称的(symmetric)完备的(complete)。我们称一个假设集\(\mathcal{H}\)是对称的,如果存在一个从\(\mathcal{X}\)\(\mathbb{R}\)的函数\(f\)的族\(\mathcal{F}\)使得对任意\(x\in \mathcal{X}\),有\(\left\{\left({h\left(x\right)}_1, \cdots, {h\left(x\right)}_n\right): h\in \mathcal{H}\right\}=\left\{\left(f_1\left(x\right), \cdots, f_n\left(x\right)\right): f_1, \cdots, f_n \in \mathcal{F}\right\}\)。我们称一个假设集\(\mathcal{H}\)是完备的,如果其产生的分数集合能够张成\(\mathbb{R}\),也即对任意\((x, y)\in \mathcal{X}\times \mathcal{Y}\)\(\left\{h(x)_y: h\in \mathcal{H}\right\} = \mathbb{R}\)

定理 1 单阶段代理损失的负面结果 假设\(\mathcal{H}\)是对称的与完备的,且\(\mathcal{R}\)是完备的。若存在\(x\in \mathcal{X}\)使得\(\inf_{h\in \mathcal{H}}\mathbb{E}_{y}[\mathcal{l}(h, X, y)\mid X = x] \neq \frac{\beta \psi (1 - \max_{y\in \mathcal{Y}}p (y | x))}{\alpha}\),则不存在满足属性\(\lim_{t\rightarrow 0^{+}}\Gamma (t) = 0\)的非递减函数\(\Gamma: \mathbb{R}_{+}\rightarrow \mathbb{R}_{+}\)使得下列\((\mathcal{H}, \mathcal{R})\)-一致性界成立:对所有\(h\in \mathcal{H}, r\in \mathbb{R}\)以及任意分布,有

\[R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^{*}(\mathcal{H}, \mathcal{R}) + M_{L_{\text{abst}}}(\mathcal{H}, \mathcal{R}) \leqslant \Gamma(R_L(h, r) - R_{L}^{*}(\mathcal{H}, \mathcal{R}) + M_{L}(\mathcal{H}, \mathcal{R})) \]

证明可以采用反证法来完成。若假设此处的\((\mathcal{H}, \mathcal{R})\) - 一致性界是有效的,则蕴含着采用单阶段代理损失学习的pointwise假设类最优预测器(best-in-class predictor)和假设类最优拒绝器(best-in-class rejector)会与采用弃权损失所学习的版本对齐(也即我们前文提到的\(\text{h}(x) = \text{h}^*(x)\)\(\mathcal{X}\)上几乎处处成立,\(\text{sign}[r(x)] = \text{sign}[r^*(x)]\)对所有满足\(r^*(x) \neq 0\)\(x\in \mathcal{X}\)成立)。将这些显式的公式纳入代理损失的条件风险分析会导致导数检验的矛盾。

考虑定理 1,为了找到满足\((\mathcal{H}, \mathcal{R})\) - 一致性界的代理损失\(L\),我们需要考虑满足以下条件的多分类代理损失\(\mathcal{l}\):对任意\(x\in \mathcal{X}\),对某些\(\psi\)\((\alpha, \beta)\in \mathbb{R}^2_{+}\)

\[\inf_{h\in \mathcal{H}}\mathbb{E}_{p(y\mid x)}\left[\mathcal{l}(h, X, y)\right] = \frac{\beta \psi (1 - \max_{y\in \mathcal{Y}}p (y | x))}{\alpha} \]

在二分类的情形下,找到满足这个条件的\(\mathcal{l}\)较为容易,因为\(\max_{y\in \mathcal{Y}}p (y | x)\)也直接地决定了其它的概率。然而,在多分类的情形下,即使\(\max_{y\in \mathcal{Y}}p (y | x)\)固定,在表示\(\inf_{h\in \mathcal{H}}\mathbb{E}_{p(y\mid x)}\left[\mathcal{l}(h, X, y)\right]\)时仍然需要考虑其它概率的不同取值。这将导致将二分类框架扩展到多分类的困难。

然而,我们会展示这个必要的条件会被三个常见的多分类代理损失\(\mathcal{l}\)所满足。进一步地,我们将证明基于这三种\(\mathcal{l}\)中任意一种的预测器-拒绝器代理损失\(L\)\((\mathcal{H}, \mathcal{R})\) - 一致性界。这三种损失\(\mathcal{l}\)的定义如下(对所有\(h\in \mathcal{H}\)\((x, y)\)):

  • 平均绝对误差损失(mean absolute error loss)\(\mathcal{l}_{\text{mae}}(h, x, y) = 1 - \frac{e^{{h(x)}_y}}{\sum_{y^{\prime}\in \mathcal{Y}}e^{{h(x)}_{y^{\prime}}}}\)
  • 约束\(\rho\)-合页损失(constrained ρ-hinge loss)\(\mathcal{l}_{\rho-\text{hinge}}(h, x, y) = \sum_{y^{\prime}\neq y}\phi_{\rho-\text{hinge}}(-{h(x)}_{y^{\prime}}), \rho > 0\),其中\(\phi_{\rho-\text{hinge}}(z) = \max\{0, 1 - \frac{z}{\rho}\}\)\(\rho\)-合页损失,且约束条件\(\sum_{y\in \mathcal{Y}}{h(x)}_y=0\)
  • \(\rho\)-间隔损失(ρ-Margin loss)\(\mathcal{l}_{\rho}(h, x, y) = \phi_{\rho}({\rho_h (x, y)})\),其中\(\rho_{h}(x, y) = h(x)_y - \max_{y^{\prime} \neq y}h(x)_{y^{\prime}}\)是置信度间隔,\(\phi_{\rho}(z) = \min\{\max\{0, 1 - \frac{z}{\rho}\}, 1\}, \rho > 0\)\(\rho\)-间隔损失。

关于这里的间隔损失,可以理解为合页损失的多分类扩展(参见Crammer-Singer损失[5][7]),它旨在最大化下列预测间隔(以3个类别为例):

定理 2 单阶段代理损失的\((\mathcal{H}, \mathcal{R})\) - 一致性界 假设\(\mathcal{H}\)是对称与完备的。则对\(\alpha=\beta\)\(\mathcal{l} = \mathcal{l}_{\text{mae}}\) / \(\mathcal{l} = \mathcal{l}_{\rho}\)\(\psi(z) = z\),或者\(\mathcal{l} = \mathcal{l}_{\rho - \text{hinge}}\)\(\psi(z) = nz\),有下列\((\mathcal{H}, \mathcal{R})\) - 一致性界对\(h\in \mathcal{H}, r\in \mathcal{R}\)和任意分布成立:

\[R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^{*}(\mathcal{H}, \mathcal{R}) + M_{L_{\text{abst}}}(\mathcal{H}, \mathcal{R}) \leqslant \Gamma(R_L(h, r) - R_{L}^{*}(\mathcal{H}, \mathcal{R}) + M_{L}(\mathcal{H}, \mathcal{R})) \]

其中对\(\mathcal{l} = \mathcal{l}_{\text{mae}}\)\(\Gamma (z) = \max\{2n\sqrt{z}, nz\}\);对\(\mathcal{l}=\mathcal{l}_{\rho}\)\(\Gamma (z) = \max\{2\sqrt{z}, z\}\);对\(\mathcal{l} = \mathcal{l}_{\rho - \text{hinge}}\)\(\Gamma (z) = \max\{2\sqrt{nz}, z\}\)

该理论为我们在单阶段设置下描述的预测器-拒绝器代理损失提供了有力的保障。该定理证明中使用的技术是新颖的且需要对涉及pointwise假设类最优预测器和拒绝器的多种情况的仔细分析。这一分析是具有挑战性的且需要考虑具体损失函数的条件风险与校准差距。该方法由于同时在弃权场景下最小化预测器和拒绝器,整体上不同于Awasthi等人描述的标准场景[8]。下面是当\(\mathcal{H}\)\(\mathcal{R}\)包括所有可测函数时定理2的一个直接推论(在下面的情况下可最小化差距\(M_{{L}_{\text{abst}}}\)\(M_L\)都会变为0)。

推论 3 单阶段代理损失函数的超额误差界\(\alpha = \beta\)\(\mathcal{l} = \mathcal{l}_{\text{mae}}\) / \(\mathcal{l} = \mathcal{l}_p\)\(\psi(z) = z\),或者\(\mathcal{l} = \mathcal{l}_{\rho-\text{hinge}}\)\(\psi(z) = nz\),下列超额误差界(excess error bound) 对所有\(h\in \mathcal{H}_{\text{all}}, r\in \mathcal{R}_{\text{all}}\)(这里\(\mathcal{H}_{\text{all}}\)\(\mathcal{R}_{\text{all}}\)为所有可测函数构成的集合)以及任意分布成立:

\[\underbrace{R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^{*}(\mathcal{H}_{\text{all}}, \mathcal{R}_{\text{all}})}_{\text{target excess error}} \leqslant \Gamma \underbrace{(R_L(h, r) - R_L^{*}(\mathcal{H}_{\text{all}}, \mathcal{R}_{\text{all}}))}_{\text{surrogate excess error}} \]

其中\(\Gamma\)拥有与定理 2中相同的形式。

该推论以一个积极的方式为预测器-拒绝器框架下的多分类弃权学习提供了贝叶斯一致的代理损失。事实上,它提供了一个更强的结果,因为它为之前描述过的三种弃权代理损失给出了超额误差界。这些是比这些损失函数的贝叶斯一致性更强的保障(通过取极限操作即可得到贝叶斯一致性,也即\(R_L(h, r) - R_L^{*}(\mathcal{H}_{\text{all}}, \mathcal{R}_{\text{all}})\rightarrow 0 \Rightarrow R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^{*}(\mathcal{H}_{\text{all}}, \mathcal{R}_{\text{all}})\rightarrow 0\))。

需要指出的是,该新颖的单阶段预测器-拒绝器代理损失可能导致一些优化的挑战。这是下列因素所导致的:优化平均绝对误差损失的困难,约束合页损失施加的限制(与在神经网络假设中做为标准使用的Softmax函数不兼容),以及\(\rho\)-间隔损失的非凸性。然而,我们的原始目标是理论分析,而且这些代理损失的意义体现在它们的创新性和强理论保障。正如推论 3所展示的,它们是首个用于多分类弃权问题的预测器-拒绝器贝叶斯一致的代理损失。

3 两阶段预测器-拒绝器代理损失

接下来,我们展示两阶段的计算方法,在这一方法中我们引入\(\mathcal{l}\)选择更灵活的代理损失,这些代理损失具有更好的优化属性。和前面类似,我们会为它们构建\((\mathcal{H}, \mathcal{R})\) - 一致性界。两阶段场景是一个重要的场景,因为在实践中常常大的预训练的预测模型已经可利用(第一阶段),而重新训练它会产生不可接受的昂贵代价。接下来问题变为了保持第一阶段的预测模型保持不变,而随后学习一个有用的拒绝模型(第二阶段)。

两阶段的预测器-拒绝器弃权损失和我们在第2部分中提到的单阶段预测器-拒绝器弃权损失\(L_{\text{abst}}\)不同的是,\(h\)被固定,只需要学习\(r\),而不同于\(L_{\text{abst}}\)中的\(h\)\(r\)同时被学习。我们设\(L_{\text{abst}, h}\)\(L_{\text{abst}}\)的固定预测器\(h\)的两阶段版本,定义如下:对任意\(r\in \mathbb{R}\)\(x\in \mathcal{X}\)\(y\in \mathcal{Y}\)

\[L_{\text{abst}, h}(r, x, y) = \underbrace{\mathbb{I}_{\text{h}(x) \neq y}\mathbb{I}_{r(x) > 0}}_{\text{不弃权}} + \underbrace{c \mathbb{I}_{r(x)\leqslant 0}}_{\text{弃权}} \]

作者提出了一个两阶段计算方法:

  • 首先,找到一个分类器\(h\)以最小化标准多分类代理损失\(\mathcal{l}\)
  • 其次,固定\(h\),通过最小化代理损失\(L_{\phi, h}\)找到\(r\)。关于\(r\)的的代理损失函数定义如下(对所有的\((x, y)\)):

\[L_{\phi, h}(r, x, y) = \mathbb{I}_{\text{h}(x) \neq y}\phi(-r(x)) + c \phi(r(x)) \]

这里\(\phi\)为做为\(z\mapsto \mathbb{I}_{z\leqslant 0}\)上界的非递增辅助函数,也即对应在二分类中为函数\(r\)决定间隔损失\(\mathcal{l}_\phi(r, x, y) = \phi(yr(x))\)的函数(例如指数函数\(\phi(z) = \exp{(-z)}\)),其中\(y\in \{-1, +1\}\)。该计算方法是比较直接的,因为第一阶段涉及使用标准代理损失(例如Logistic损失或带Softmax的交叉熵损失)寻找预测器的经典任务;而第二阶段也相对简单,因为\(h\)被固定,且\(L_{\phi, h}\)的形式也不复杂,其中\(\phi\)可能是Logistic损失或者指数损失。需要指出的是,严格的选择上式中的示性函数对保障两阶段代理损失获益于\((\mathcal{H}, \mathcal{R})\) - 一致性界是很重要的。如果代理损失函数在第一阶段中被使用,这可能不一定满足。

需要指出的是,损失函数\(L_{\text{abst}, h}\)\(L_{\phi, h}\)都是弃权函数\(r\)的函数,而\(L_{\text{abst}}\)\((h, r)\in (\mathcal{H}, \mathcal{R})\)的函数。

定义二值0-1分类损失\(\mathcal{l}_{\text{0-1}}^{\text{binary}}(r, x, y) = \mathbb{I}_{y\neq \text{sign}(r(x))}\),其中\(\text{sign}(z) = \mathbb{I}_{z > 0} - \mathbb{I}_{z\leqslant 0}\)。正如单阶段代理损失,两阶段代理损失也获益于强一致性保障。我们先展示在第二阶段中,当预测器\(h\)固定时,若\(\mathcal{l}_\phi\)满足关于二值0-1损失\(\mathcal{l}^{\text{binary}}_{\text{0-1}}\)\(\mathcal{R}\)-一致性界,则代理损失函数\(L_{\phi, h}\)获益于关于\(L_{\text{abst}, h}\)\(\mathcal{R}\)-一致性界。

定理 4 第二阶段代理损失的\(\mathcal{R}\)-一致性界 对于固定的预测器\(h\),假设\(\mathcal{l}_\phi\)满足关于\(\mathcal{l}^{\text{binary}}_{\text{0-1}}\)\(\mathcal{R}\)-一致性界,即存在非递减凹函数\(\Gamma\)使得对所有\(r\in \mathcal{R}\),有

\[R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}(r) - R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}^{*}(\mathcal{R}) + M_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}(\mathcal{R}) \leqslant \Gamma(R_{\mathcal{l}_\phi}(r) - R_{\mathcal{l}_\phi}^{*}(\mathcal{R}) + M_{\mathcal{l}_\phi}(\mathcal{R})) \]

则对于所有\(r\in \mathcal{R}\)和任意分布,下列\(\mathcal{R}\)-一致性界成立:

\[R_{L_{\text{abst}, h}}(r) - R_{L_{\text{abst}, h}}^{*}(\mathcal{R}) + M_{L_{\text{abst}, h}}(\mathcal{R}) \leqslant \Gamma\left(\left(R_{L_{\phi, h}}\left(r\right) - R_{{L}_{\phi, h}}^{*}\left(\mathcal{R}\right) + M_{L_{\phi, h}}\left(\mathcal{R}\right)\right) / c\right) \]

该定理的证明包括了对于固定的预测器\(h\),分析弃权损失和第二阶段代理损失的校准差距。这里的校准差距相较于标准设置下的更复杂,因为它考虑了条件概率、该固定预测器的误差和花费,于是因此需要不同的分析。为了构建第二阶段代理损失的\(\mathcal{R}\)-一致性界,我们需要使用该代理损失的校准差距来构建弃权损失的校准差距的上界。然而,直接操作它们会由于其复杂形式而较为困难。不过,我们可以观察到这两种形式共享了与标准分类中校准差距的结构相似性。由上述的观察启发,我们构建了一个合适的条件分布来将这两个校准差距转换为标准形式。我们尝试利用\(\mathcal{l}_\phi\)的关于二值0-1损失的\(\mathcal{R}\)-一致性界,以用代理函数的校准差距构建目标校准差距的上界。

\(\mathcal{H}\)\(\mathcal{R}\)为可测函数集的特殊情况下,定理 4中的所有可最小化差距项消失了。因此,我们获得了如下推论。

推论5 固定预测器\(h\),假设\(\mathcal{l}_\phi\)满足关于\(\mathcal{l}_{\text{0-1}}^{\text{binary}}\)的超额误差界,即存在非递减凹函数\(\Gamma\)使得对所有\(r\in \mathcal{R}_{\text{all}}\),有

\[R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}(r) - R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}^{*}(\mathcal{R}_{\text{all}}) \leqslant \Gamma(R_{\mathcal{l}_{\phi}}(r) - R_{\mathcal{l}_{\phi}}^{*}(\mathcal{R}_{\text{all}})) \]

于是,对所有\(r\in \mathcal{R}_{\text{all}}\)和任意分布,下列超额误差界成立:

\[R_{L_{\text{abst}, h}}(r) - R_{L_{\text{abst}, h}}^{*}(\mathcal{R}_{\text{all}}) \leqslant \Gamma\left(\left(R_{L_{\phi, h}}\left(r\right) - R_{{L}^{*}_{\phi, h}}\left(\mathcal{R}_{\text{all}}\right)\right) / c\right) \]

我们接下来陈述关于弃权损失函数\(L_{\text{abst}}\)的整个两阶段方法的\((\mathcal{H}, \mathcal{R})\) - 一致性界。设\(\mathcal{l}_{\text{0-1}}\)为多分类0-1损失:\(\mathcal{l}_{\text{0-1}}(h, x, y) = \mathbb{I}_{h(x)\neq y}\)。我们接下来考虑是弃权正规(regular for abstention) 的假设集合\(\mathcal{R}\),也即使得对任意\(x\in \mathcal{X}\),存在\(f, g\in \mathcal{R}\)满足\(f(x) > 0\)\(g(x) \leqslant 0\)。如果\(\mathcal{R}\)是弃权正规的,则对于任意\(x\),既存在一个可以接受的选择也存在一个可以拒绝的选择。

定理6 两阶段方法的\((\mathcal{H}, \mathcal{R})\) - 一致性界 假设\(\mathcal{R}\)是正规的。假设\(\mathcal{l}\)满足关于\(\mathcal{l}_{\text{0-1}}\)\(\mathcal{H}\) - 一致性界,\(\mathcal{l}_\phi\)满足关于\(\mathcal{l}_{\text{0-1}}^{\text{binary}}\)\(\mathcal{R}\) - 一致性界,即存在非递减凹函数\(\Gamma_1\)\(\Gamma_2\)使得对于所有的\(h\in \mathcal{H}\)\(r\in \mathcal{R}\),有

\[R_{\mathcal{l}_{\text{0-1}}}(h) - R_{\mathcal{l}_{\text{0-1}}}^{*}(\mathcal{H}) + M_{\mathcal{l}_{\text{0-1}}}(\mathcal{H}) \leqslant \Gamma_1(R_{\mathcal{l}}(h) - R_{\mathcal{l}}^{*}(\mathcal{H}) + M_{\mathcal{l}}(\mathcal{H}))\\ R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}(r) - R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}^{*}(\mathcal{R}) + M_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}(\mathcal{R}) \leqslant \Gamma_2(R_{\mathcal{l}_\phi}(r) - R_{\mathcal{l}_\phi}^{*}(\mathcal{R}) + M_{\mathcal{l}_\phi}(\mathcal{R})) \]

于是,下列的\((\mathcal{H}, \mathcal{R})\) - 一致性界对所有\(h\in \mathcal{H}, r\in \mathcal{R}\)和任意分布成立:

\[\begin{aligned} R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^{*}(\mathcal{H}, \mathcal{R}) + M_{L_{\text{abst}}}(\mathcal{H}, \mathcal{R})\leqslant &\Gamma_1\left(R_{l}\left(h\right) - R_{\mathcal{l}}^{*}\left(\mathcal{H}\right) + M_{\mathcal{l}}(\mathcal{H})\right) \\&+ (1 + c)\Gamma_2\left(\left(R_{L_{\phi, h}}\left(r\right) - R_{{L}^{*}_{\phi, h}}\left(\mathcal{R}\right) + M_{\mathcal{l}_{\phi, h}}(\mathcal{R})\right) / c\right) \end{aligned} \]

其中常数因子\((1 + c)\)\(\frac{1}{c}\)\(\Gamma_2\)是线性的时可以被移除。

和前面类似,当\(\mathcal{H}\)\(\mathcal{R}\)为可测函数族时,下列关于超额误差界的推论成立。

推论 7 假设\(\mathcal{l}\)满足关于\(\mathcal{l}_{\text{0-1}}\)的超额误差界,\(\mathcal{l}_{\phi}\)满足关于\(\mathcal{l}_{\text{0-1}}^{\text{binary}}\)的超额误差界,即存在非递减凹函数\(\Gamma_1\)\(\Gamma_2\)使得对于所有的\(h\in \mathcal{H}_{\text{all}}\)\(r\in \mathcal{R}_{\text{all}}\),有

\[R_{\mathcal{l}_{\text{0-1}}}(h) - R_{\mathcal{l}_{\text{0-1}}}^{*}(\mathcal{H}_{\text{all}}) \leqslant \Gamma_1(R_{\mathcal{l}}(h) - R_{\mathcal{l}}^{*}(\mathcal{H}_{\text{all}}))\\ R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}(r) - R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}^{*}(\mathcal{R}_{\text{all}}) \leqslant \Gamma_2(R_{\mathcal{l}_{\phi}}(r) - R_{\mathcal{l}_{\phi}}^{*}(\mathcal{R}_{\text{all}})) \]

于是,下列超额误差界对于所有\(h\in \mathcal{H}_{\text{all}}\)\(r\in \mathcal{R}_{\text{all}}\)和任意分布成立:

\[R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^{*}(\mathcal{H}_{\text{all}}, \mathcal{R}_{\text{all}})\leqslant \Gamma_1\left(R_{l}\left(h\right) - R_{\mathcal{l}}^{*}\left(\mathcal{H}_{\text{all}}\right)\right) \\+ (1 + c)\Gamma_2\left(\left(R_{L_{\phi, h}}\left(r\right) - R_{{L}^{*}_{\phi, h}}\left(\mathcal{R}_{\text{all}}\right)\right) / c\right) \]

其中常数因子\((1 + c)\)\(\frac{1}{c}\)\(\Gamma_2\)是线性的时可以被移除。

这些结果为两阶段设置下的代理损失提供了强理论保障。此外,\(\mathcal{l}\)在单阶段设置下的选择受特定条件的约束,而在两阶段设置下可以被更加灵活地选择。特别地,它可以被选择为Logistic损失(或带Softmax的交叉熵损失),这不但更易于优化,而且能够更好地适配于复杂的神经网络。在第二阶段,公式比较直接,函数\(\phi\)的选择是灵活的,这将导出关于拒绝函数\(r\)的简单的光滑凸优化问题。此外,第二阶段将过程进行了简化:\(h\)做为常量,只有拒绝器被优化。该方法能够增强优化效率。

参考

  • [1] Mao A, Mohri M, Zhong Y. Predictor-rejector multi-class abstention: Theoretical analysis and algorithms[C]//International Conference on Algorithmic Learning Theory. PMLR, 2024: 822-867.
  • [2] Cortes C, DeSalvo G, Mohri M. Boosting with abstention[J]. Advances in Neural Information Processing Systems, 2016, 29.
  • [3] Ramaswamy H G, Tewari A, Agarwal S. Consistent algorithms for multiclass classification with an abstain option[J]. 2018.
  • [4] 《维基百科:显著性差异》
  • [5] Han Bao: Learning Theory Bridges Loss Functions
  • [6] Ni C, Charoenphakdee N, Honda J, et al. On the calibration of multiclass classification with rejection[J]. Advances in Neural Information Processing Systems, 2019, 32.
  • [7] Crammer K, Singer Y. On the algorithmic implementation of multiclass kernel-based vector machines[J]. Journal of machine learning research, 2001, 2(Dec): 265-292.
  • [8] Awasthi P, Mao A, Mohri M, et al. Multi-Class $ H $-Consistency Bounds[J]. Advances in neural information processing systems, 2022, 35: 782-795.
posted @ 2025-02-22 10:44  orion-orion  阅读(326)  评论(0)    收藏  举报