Huang J., Smola A., Gretton A., Borgwardt K. & Scholkopf B. Correcting Sample Selection Bias by Unlabeled Data. NIPS, 2007.
概
MMD量化了两组数据是否来自同一个分布的可能性, 那么如何利用这份信息来更好地训练, 增加模型的泛化性呢?
主要内容
我们有两组数据\(Z = ((x_1, y_1), (x_2, y_2), \ldots, (x_m, y_m)) \subseteq \mathcal{X} \times \mathcal{Y}\), \(Z' = ((x_1', y_1'), (x_2', y_2'), \ldots, (x_n', y_n')) \subseteq \mathcal{X} \times \mathcal{Y}\), 分别来自分布\(\mathrm{Pr}(x, y)\)和\(\mathrm{Pr}'(x, y)\).
一般来说, 我们训练一个模型(分类也好回归也罢), 可以归结为如下的风险函数
\[R(\mathrm{Pr}, \theta, \ell(x, y, \theta)) = \mathbb{E}_{(x, y) \sim \mathrm{Pr}} [\ell(x, y, \theta)],
\]
但是我们真正想要优化的是\(R(\mathrm{Pr}', \theta, \ell(x, y, \theta))\), 当然一般的做法是假设二者是一致的. 但实际情况可能是二者并不一致, 但是注意到
\[R[\mathrm{Pr}', \theta, \ell(x, y, \theta)] = \mathbb{E}_{(x, y) \in \mathrm{Pr'}} [\ell(x, y, \theta)]=\mathbb{E}_{(x, y) \sim \mathrm{Pr}} [\frac{\mathrm{Pr}'(x, y)}{\mathrm{Pr}(x, y)} \ell(x, y, \theta)],
\]
并记\(\beta(x, y) := \frac{\mathrm{Pr}'(x, y)}{\mathrm{Pr}(x, y)}\)(若成立), 则
\[R[\mathrm{Pr}', \theta, \ell(x, y, \theta)] = R[\mathrm{Pr}, \theta, \beta(x, y)\ell(x, y, \theta)].
\]
这实际上可以理解为对样本的一个重加权, 所以现在的问题便是, 如何估计\(\beta(x, y)\), 本文研究一种特殊的情况:
\[\mathrm{Pr}(x, y) = \mathrm{P}(y|x) \mathrm{Pr}(x) , \quad \mathrm{Pr}'(x, y) = \mathrm{P}(y|x) \mathrm{Pr}'(x),
\]
即 covariate shift, 此时
\[\beta(x, y) = \frac{\mathrm{Pr}(x)}{\mathrm{Pr}'(x)}.
\]
首先, 根据MMD我们知道, 两个分布差异性可以量化为
\[\mathrm{MMD}[\mathcal{F},p,q] := \sup_{f \in \mathcal{F}} (\mathbb{E}_p [f(x)] - \mathbb{E}_q[f(y)]),
\]
当我们限制\(\mathcal{F}\)为 universal RKHS \(\mathcal{H}\)的时候, 上式可表示为
\[\mathrm{MMD}[\mathcal{H}, p, q] = \sup_{\|f\|_{\mathcal{H}} \le 1} \mathbb{E}_p [f(x)] - \mathbb{E}_q [f(x)]
= \sup_{\|f\|_{\mathcal{H}} \le 1} \mathbb{E}_p [\langle \phi_x, f\rangle_{\mathcal{H}}] - \mathbb{E}_q [\langle \phi_x, f\rangle_{\mathcal{H}}] = \|\mu_p-\mu_q\|_{\mathcal{H}}.
\]
在此处, 我们关注(用\(\phi(x)\)表示\(\phi_x\))
\[\|\mu(\mathrm{Pr}') - \mathbb{E}_{x \sim \mathrm{Pr}(x)} [\beta(x) \phi(x)]\|,
\]
即我们希望找到一个权重\(\beta(x)\)使得上式最小, 由于分布的一些特殊性质, 完整的问题表述如下:
\[\min_{\beta} \quad \|\mu(\mathrm{Pr}') - \mathbb{E}_{x \sim \mathrm{Pr}(x)} [\beta(x) \phi(x)]\| \\
\mathrm{s.t.}\quad \beta(x) \ge 0, \mathbb{E}_{x \sim \mathrm{Pr}(x)}[\beta(x)] = 1.
\]
在实际问题中, 我们只有分布中的有限的采样, 也就是开头的\(Z, Z'\), 上述问题变为
\[\|\frac{1}{m} \sum_{i=1}^m \beta_i \phi(x_i)- \frac{1}{n} \sum_{i=1}^n \phi(x_i')\|^2 = \frac{1}{m^2}\beta^T K \beta - \frac{2}{mn}\kappa^T \beta + \mathrm{const},
\]
其中\(\kappa_i := \sum_{j=1}^{n} k(x_i, x_j')\). 于是, 我们优化如下的问题
\[\min_{\beta} \quad \frac{1}{2} \beta^T K \beta - \frac{m}{n}\kappa^T\beta \\
\mathrm{s.t.} \quad \beta_i \in [0, B], |\sum_{i=1}^m \beta_i - m| \le m\epsilon.
\]
限制条件的前者限制了差异的大小, 后者则是希望其迫近概率分布.