论文速读记录 | 2026.01




Multi-Task Learning as Multi-Objective Optimization

主要内容:

  • 这篇文章提出名为 MGDA-UB 的方法,是 MGDA 方法的改进。感觉 MGDA 的思想很有趣:如果各个 task 的梯度方向不同,我们应该选一个 这些梯度的加权和 来作为梯度下降的梯度。这篇文章认为选择令 \(\|\sum \alpha_i\nabla L_i\|^2\) 这个二范数最小的加权,是最好的。
  • 直观理解:我们考虑只有两个 task 的情况。我们在 \(\nabla L_1, \nabla L_2\) 两个梯度里面加权,这相当于,\(\nabla L_1, \nabla L_2\) 组成三角形的两条边,我们在三角形的第三条边上选择一个点。这篇文章认为选择垂直于第三条边(即三角形的高与第三条边的交点),这样选是最好的。
  • MGDA-UB 相对 MGDA 方法的改进,大概是在参数空间很大的情况下,上述的点比较难找,因此对于先学各个 task 共用的 representation、再在 representation 上加多个 head 实现 multi-task 的架构,我们使用 \(\nabla_\theta L_t = (\partial L_t / \partial Z) \nabla_Z L_t\) 来做,\(\nabla_Z L_t\) 的参数空间貌似小很多。
  • 这个方法好像有理论保证。
  • 关于梯度的思考【】有一篇 air 的有些像的论文
  • 后续阅读记录(本站博客):基于梯度组合的多任务 / 多目标学习

Policy Likelihood-based Query Sampling and Critic-Exploited Reset for Efficient Preference-based Reinforcement Learning

  • 来源:ICLR 2026 的新工作,QPA 的后续工作。
  • OpenReview:https://openreview.net/forum?id=ITeuGb2bYg
  • 主要内容:PbRL。对 1. query-policy alignment,2. reward model 定期重置(作用:减少初始偏差,防止奖励高估) 两个技术进行了改进。
  • 具体的,对于 query-policy alignment,这篇论文用一个 segment 被当前策略生成的 log likelihood 来度量 query-policy alignment 的程度。对于 reward model 定期重置,当 Q 值超过一个动态阈值时,这篇文章重置奖励模型和 Q 函数,这个动态阈值随时间单调增长,避免过度重置。
  • 没仔细看,不确定是对的。

Can a MISL Fly? Analysis and Ingredients for Mutual Information Skill Learning

csf 的定理 1 是,说 metra 虽然通过 Lipschitz 约束,希望所有的 \(\|\phi(s') - \phi(s)\| \le 1\),但实际在代码里优化的是 \(\mathbb{E} \left[ \|\phi(s') - \phi(s)\| \right] \le 1\),并且一定会取等,即 \(\mathbb{E} \left[ \|\phi(s') - \phi(s)\| \right] = 1\)

csf 声称,metra 用来学 state encoder \(\phi(s)\) 的 objective 可以近似写成对比学习损失(定理 2),具体的:

\[\phi_{k+1} \leftarrow \mathop{\arg\max}_{\phi} ~ \underbrace{\mathbb{E}_{p^{\beta}(s, s^{\prime}, z)} \left[ (\phi(s^{\prime}) - \phi(s))^{\top}z \right]}_{\text{拉近正样本}} - \underbrace{\mathbb{E}_{p^{\beta}(s, s^{\prime})} \left[ \log\mathbb{E}_{p(z^{\prime})} \left[e^{(\phi(s^{\prime})-\phi(s))^{\top} z^{\prime}} \right] \right]}_{\text{推开负样本}} \]

metra 用来学 policy \(\pi(a|s, z)\) 的 intrinsic reward 为 \(r(s, s^{\prime}, z) = (\phi(s^{\prime}) - \phi(s))^{\top}z\),csf 声称它可以写成信息瓶颈的形式(定理 3):

\[r(s, s^{\prime}, z) \leq \underbrace{I^{\pi}(S, S^{\prime}; Z)}_{\text{互信息}} - \underbrace{I^{\pi}(S, S^{\prime}; \phi(S^{\prime}) - \phi(S))}_{\text{压缩项(负熵)}} \]

其中,后面这一项负熵是不能省去的,csf 的 ablation 6.3(2) 证明,移除这一项,即直接最大化互信息,就直接不 work 了。

csf 进一步发现,既然 reward 形式是线性的 \((\phi(s')-\phi(s))^\top z\),那么可以使用 successor feature(后继特征,最先提出的文章可能是 GPI)的形式,训练一个接收 state embedding 构成的向量 reward \(\phi(s')-\phi(s) \in \mathbb{R}^d\) 的策略。

后继特征(可以理解为向量 Q 函数)定义为:

\[\psi^{\pi}(s,a,z) \triangleq \mathbb{E} \sum_{\tau\sim\pi(\cdot | \cdot, z)} \left[\phi(s^{\prime})-\phi(s)\right] \]

其更新采用时序差分(TD-error)的形式,即 \(\psi(s,a,z) \leftarrow \phi(s')-\phi(s) + \gamma\psi(s',a',z)\)。策略则最大化相应 z 下的 Q 函数,即 \(\pi_{k+1} \leftarrow \mathop{\arg\max}_{\pi} \mathbb{E} \left[\psi(s,a,z)^{\top}z\right]\)



posted @ 2026-01-01 22:08  MoonOut  阅读(81)  评论(0)    收藏  举报