论文速读记录 | 2026.01

Multi-Task Learning as Multi-Objective Optimization
Policy Likelihood-based Query Sampling and Critic-Exploited Reset for Efficient Preference-based Reinforcement Learning
Can a MISL Fly? Analysis and Ingredients for Mutual Information Skill Learning

Multi-Task Learning as Multi-Objective Optimization

arxiv：https://arxiv.org/abs/1810.04650
来源：合作者提到的论文，用 multi-objective 的方式来解决 multi-task 问题。NeurIPS 2018。
（感觉对 RL 来说，如果 multi-task 的 task 之间 transition 相同，只有 reward 不同，那么问题 setting 好像跟 multi-objective 挺像的（）
参考博客：CSDN | MGDA-UB：寻找多任务学习中的帕累托最优，缓解任务冲突问题

主要内容：

这篇文章提出名为 MGDA-UB 的方法，是 MGDA 方法的改进。感觉 MGDA 的思想很有趣：如果各个 task 的梯度方向不同，我们应该选一个这些梯度的加权和来作为梯度下降的梯度。这篇文章认为选择令 \(\|\sum \alpha_i\nabla L_i\|^2\) 这个二范数最小的加权，是最好的。
直观理解：我们考虑只有两个 task 的情况。我们在 \(\nabla L_1, \nabla L_2\) 两个梯度里面加权，这相当于，\(\nabla L_1, \nabla L_2\) 组成三角形的两条边，我们在三角形的第三条边上选择一个点。这篇文章认为选择垂直于第三条边（即三角形的高与第三条边的交点），这样选是最好的。
MGDA-UB 相对 MGDA 方法的改进，大概是在参数空间很大的情况下，上述的点比较难找，因此对于先学各个 task 共用的 representation、再在 representation 上加多个 head 实现 multi-task 的架构，我们使用 \(\nabla_\theta L_t = (\partial L_t / \partial Z) \nabla_Z L_t\) 来做，\(\nabla_Z L_t\) 的参数空间貌似小很多。
这个方法好像有理论保证。
关于梯度的思考【】有一篇 air 的有些像的论文
后续阅读记录（本站博客）：基于梯度组合的多任务 / 多目标学习

Policy Likelihood-based Query Sampling and Critic-Exploited Reset for Efficient Preference-based Reinforcement Learning

来源：ICLR 2026 的新工作，QPA 的后续工作。
OpenReview：https://openreview.net/forum?id=ITeuGb2bYg
主要内容：PbRL。对 1. query-policy alignment，2. reward model 定期重置（作用：减少初始偏差，防止奖励高估）两个技术进行了改进。
具体的，对于 query-policy alignment，这篇论文用一个 segment 被当前策略生成的 log likelihood 来度量 query-policy alignment 的程度。对于 reward model 定期重置，当 Q 值超过一个动态阈值时，这篇文章重置奖励模型和 Q 函数，这个动态阈值随时间单调增长，避免过度重置。
没仔细看，不确定是对的。

Can a MISL Fly? Analysis and Ingredients for Mutual Information Skill Learning

arxiv：https://arxiv.org/abs/2412.08021
GitHub：https://github.com/Princeton-RL/contrastive-successor-features
来源：小火箭（csf）是 metra 的后续工作，将 metra 和互信息方法关联起来。
ICLR 2025 Oral。

csf 的定理 1 是，说 metra 虽然通过 Lipschitz 约束，希望所有的 \(\|\phi(s') - \phi(s)\| \le 1\)，但实际在代码里优化的是 \(\mathbb{E} \left[ \|\phi(s') - \phi(s)\| \right] \le 1\)，并且一定会取等，即 \(\mathbb{E} \left[ \|\phi(s') - \phi(s)\| \right] = 1\)。

csf 声称，metra 用来学 state encoder \(\phi(s)\) 的 objective 可以近似写成对比学习损失（定理 2），具体的：

\[\phi_{k+1} \leftarrow \mathop{\arg\max}_{\phi} ~ \underbrace{\mathbb{E}_{p^{\beta}(s, s^{\prime}, z)} \left[ (\phi(s^{\prime}) - \phi(s))^{\top}z \right]}_{\text{拉近正样本}} - \underbrace{\mathbb{E}_{p^{\beta}(s, s^{\prime})} \left[ \log\mathbb{E}_{p(z^{\prime})} \left[e^{(\phi(s^{\prime})-\phi(s))^{\top} z^{\prime}} \right] \right]}_{\text{推开负样本}} \]

metra 用来学 policy \(\pi(a|s, z)\) 的 intrinsic reward 为 \(r(s, s^{\prime}, z) = (\phi(s^{\prime}) - \phi(s))^{\top}z\)，csf 声称它可以写成信息瓶颈的形式（定理 3）：

\[r(s, s^{\prime}, z) \leq \underbrace{I^{\pi}(S, S^{\prime}; Z)}_{\text{互信息}} - \underbrace{I^{\pi}(S, S^{\prime}; \phi(S^{\prime}) - \phi(S))}_{\text{压缩项（负熵）}} \]

其中，后面这一项负熵是不能省去的，csf 的 ablation 6.3(2) 证明，移除这一项，即直接最大化互信息，就直接不 work 了。

csf 进一步发现，既然 reward 形式是线性的 \((\phi(s')-\phi(s))^\top z\)，那么可以使用 successor feature（后继特征，最先提出的文章可能是 GPI）的形式，训练一个接收 state embedding 构成的向量 reward \(\phi(s')-\phi(s) \in \mathbb{R}^d\) 的策略。

后继特征（可以理解为向量 Q 函数）定义为：

\[\psi^{\pi}(s,a,z) \triangleq \mathbb{E} \sum_{\tau\sim\pi(\cdot | \cdot, z)} \left[\phi(s^{\prime})-\phi(s)\right] \]

其更新采用时序差分（TD-error）的形式，即 \(\psi(s,a,z) \leftarrow \phi(s')-\phi(s) + \gamma\psi(s',a',z)\)。策略则最大化相应 z 下的 Q 函数，即 \(\pi_{k+1} \leftarrow \mathop{\arg\max}_{\pi} \mathbb{E} \left[\psi(s,a,z)^{\top}z\right]\)

posted @ 2026-01-01 22:08 MoonOut 阅读(81) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙

论文速读记录 | 2026.01

Multi-Task Learning as Multi-Objective Optimization

Policy Likelihood-based Query Sampling and Critic-Exploited Reset for Efficient Preference-based Reinforcement Learning

Can a MISL Fly? Analysis and Ingredients for Mutual Information Skill Learning

公告