论文速读记录 | 2025.07




Wasserstein Dependency Measure for Representation Learning

传统方法 CPC(Contrastive Predictive Coding),通过相似度函数 \(f(x,y)\),使用 InfoNCE loss,直接最大化 x 和 y 的互信息:

\[\mathcal{L}_{\text{CPC}} = -\mathbb{E} \left[ \log \frac{e^{f(x, y_+)}}{e^{f(x, y_+)} + \sum_{j=1}^{K-1} e^{f(x, y_j^-)}} \right] \]

这篇文章用 W 距离代替互信息 \(I(x,y)=\text{KL}(p(xy), p(x)p(y))\) 中的 KL 散度,从而提出 Wasserstein 依赖度量 (WDM):

\[\text{WDM}(X;Y) = W_1(p(xy), p(x)p(y)) \]

具体优化方法:

  1. 主损失(与 CPC 类似):

    \[\mathcal{L}_{\text{WPC}} = - \log \frac{e^{f(x, y_+)}}{e^{f(x, y_+)} + \sum_{j=1}^{K-1} e^{f(x, y_j^-)}} \]

  2. Lipschitz 约束:通过梯度惩罚,实现函数 f 的 1-Lipschitz 约束。1-Lipschitz 约束指的是,\(|f(a) - f(b)| \le \|a-b\|\),其中函数 f 直接输出标量,\(\|\cdot \|\) 是一种距离度量,比如 metra 选用了 temporal distance:

    \[\mathcal{L}_{\text{GP}} = \lambda \cdot \mathbb{E}_{\hat{x}, \hat{y}} \left[ (\|\nabla f(\hat{x}, \hat{y})\|_2 - 1)^2 \right] \]

  3. 总损失\(\mathcal{L}_{\text{Total}} = \mathcal{L}_{\text{WPC}} + \mathcal{L}_{\text{GP}}\)

WDM 使用对偶形式 (Dual Form) 来做,这是一个数学技巧,用来实际计算 Wasserstein 距离。它告诉我们,最大化 WDM 等价于找一个满足 1-Lipschitz 约束的 f 函数,并最大化 \(\mathbb E_{(x,y)\sim P_\text{data}} f(x,y) - \mathbb E_{(x,y)\sim P_\text{independent}} f(x,y)\)。这正是 WPC 目标函数的形式!所以 WPC 直接优化这个对偶形式的目标函数。这跟 metra 也很像。


posted @ 2025-07-04 11:01  MoonOut  阅读(78)  评论(0)    收藏  举报