论文速读记录 | 2026.01
Multi-Task Learning as Multi-Objective Optimization
- arxiv:https://arxiv.org/abs/1810.04650
- 来源:合作者提到的论文,用 multi-objective 的方式来解决 multi-task 问题。NeurIPS 2018。
- (感觉对 RL 来说,如果 multi-task 的 task 之间 transition 相同,只有 reward 不同,那么问题 setting 好像跟 multi-objective 挺像的()
- 参考博客:CSDN | MGDA-UB:寻找多任务学习中的帕累托最优,缓解任务冲突问题
主要内容:
- 这篇文章提出名为 MGDA-UB 的方法,是 MGDA 方法的改进。感觉 MGDA 的思想很有趣:如果各个 task 的梯度方向不同,我们应该选一个 这些梯度的加权和 来作为梯度下降的梯度。这篇文章认为选择令 \(\|\sum \alpha_i\nabla L_i\|^2\) 这个二范数最小的加权,是最好的。
- 直观理解:我们考虑只有两个 task 的情况。我们在 \(\nabla L_1, \nabla L_2\) 两个梯度里面加权,这相当于,\(\nabla L_1, \nabla L_2\) 组成三角形的两条边,我们在三角形的第三条边上选择一个点。这篇文章认为选择垂直于第三条边(即三角形的高与第三条边的交点),这样选是最好的。
- MGDA-UB 相对 MGDA 方法的改进,大概是在参数空间很大的情况下,上述的点比较难找,因此对于先学各个 task 共用的 representation、再在 representation 上加多个 head 实现 multi-task 的架构,我们使用 \(\nabla_\theta L_t = (\partial L_t / \partial Z) \nabla_Z L_t\) 来做,\(\nabla_Z L_t\) 的参数空间貌似小很多。
- 这个方法好像有理论保证。
- 关于梯度的思考【】有一篇 air 的有些像的论文
- 后续阅读记录(本站博客):基于梯度组合的多任务 / 多目标学习
Policy Likelihood-based Query Sampling and Critic-Exploited Reset for Efficient Preference-based Reinforcement Learning
- 来源:ICLR 2026 的新工作,QPA 的后续工作。
- OpenReview:https://openreview.net/forum?id=ITeuGb2bYg
- 主要内容:PbRL。对 1. query-policy alignment,2. reward model 定期重置(作用:减少初始偏差,防止奖励高估) 两个技术进行了改进。
- 具体的,对于 query-policy alignment,这篇论文用一个 segment 被当前策略生成的 log likelihood 来度量 query-policy alignment 的程度。对于 reward model 定期重置,当 Q 值超过一个动态阈值时,这篇文章重置奖励模型和 Q 函数,这个动态阈值随时间单调增长,避免过度重置。
- 没仔细看,不确定是对的。
Can a MISL Fly? Analysis and Ingredients for Mutual Information Skill Learning
- arxiv:https://arxiv.org/abs/2412.08021
- GitHub:https://github.com/Princeton-RL/contrastive-successor-features
- 来源:小火箭(csf)是 metra 的后续工作,将 metra 和互信息方法关联起来。
- ICLR 2025 Oral。
csf 的定理 1 是,说 metra 虽然通过 Lipschitz 约束,希望所有的 \(\|\phi(s') - \phi(s)\| \le 1\),但实际在代码里优化的是 \(\mathbb{E} \left[ \|\phi(s') - \phi(s)\| \right] \le 1\),并且一定会取等,即 \(\mathbb{E} \left[ \|\phi(s') - \phi(s)\| \right] = 1\)。
csf 声称,metra 用来学 state encoder \(\phi(s)\) 的 objective 可以近似写成对比学习损失(定理 2),具体的:
metra 用来学 policy \(\pi(a|s, z)\) 的 intrinsic reward 为 \(r(s, s^{\prime}, z) = (\phi(s^{\prime}) - \phi(s))^{\top}z\),csf 声称它可以写成信息瓶颈的形式(定理 3):
其中,后面这一项负熵是不能省去的,csf 的 ablation 6.3(2) 证明,移除这一项,即直接最大化互信息,就直接不 work 了。
csf 进一步发现,既然 reward 形式是线性的 \((\phi(s')-\phi(s))^\top z\),那么可以使用 successor feature(后继特征,最先提出的文章可能是 GPI)的形式,训练一个接收 state embedding 构成的向量 reward \(\phi(s')-\phi(s) \in \mathbb{R}^d\) 的策略。
后继特征(可以理解为向量 Q 函数)定义为:
其更新采用时序差分(TD-error)的形式,即 \(\psi(s,a,z) \leftarrow \phi(s')-\phi(s) + \gamma\psi(s',a',z)\)。策略则最大化相应 z 下的 Q 函数,即 \(\pi_{k+1} \leftarrow \mathop{\arg\max}_{\pi} \mathbb{E} \left[\psi(s,a,z)^{\top}z\right]\)

浙公网安备 33010602011771号