多目标推荐任务中的跷跷板问题

引入

所谓跷跷板问题，就是说多目标优化的时候，任务A优化好了，结果发现任务B效果不好。

帕累托最优：Pareto efficiency或Pareto Optimality，代表了一种多目标优化任务中的理想状态。每次迭代的时候求一个可执行域，可执行域保证每个任务都是有优化的，然后在这个可执行域迭代求个任务的最优解；这个方法简单粗暴，解决多目标优化构建了一个监督信号，只要能收敛肯定保证了多个目标都得到了比初始值好的效果，但就是很容易不收敛，甚至可执行域都求不出来。

现有研究方向

改进模型架构：PLE、MT-DNN、FDN（北大，AAAI '23）、STEM（腾讯，AAAI '24）、small tower（谷歌）
优化底层算法：改进优化并在非凸损失表面上找到更好的局部最优值。Gradient Surgery for Multi-Task Learning (NeurIPS 2020)

论文一： FDN

背景

尽管PLE模型通过任务的共享特征和特有特征一定程度上缓解了”跷跷板“问题，但是在实际的业务当中对PLE模型的使用发现，对于其论文中提出的显式划分，可能在模型训练的过程当中不能很好地来缓解由于“跷跷板”所引起的负迁移问题。

什么是负迁移问题？

在各个参与多任务学习的专家网络角色，由于没有受到很好的约束，因此其表征出来的特征分布会出现特征放置位置错误的现象，即任务A的特征信息中存在任务B特有特征或者任务间可共享的特征，共享特征信息和任务B的特征信息同样亦如此，如下图(a)所示，这种现象，被称为“特征冗余”现象。由于“特征冗余”现象的存在，从而导致多任务学习负迁移问题的产生。因此，“特征冗余”现象被认为是多任务学习中负迁移问题的根本原因所在。

而在理想的条件下，我们希望在多任务学习中的特征分布下图(b)所示，这样会极大地缓解多任务学习中存在的负迁移问题。

方法

借鉴 PLE 中 expert 共享和独有的思路，对每个 task 进行引入各自的 expert，并将各自 task 的 expert 分为共享和独有两部分，所有 task 共享的部分组合得到整体共享的 expert，每个 task 的输入由各自 task 独有的 expert 和整体共享的 expert 进行组合得到。FDN模型的关键部分包括特征分解对模块和三个约束条件（正交约束、辅助任务约束和特征共享约束）

模型对每个task的学习可以表示为式子(1)，其中task的输入由共享和独有两种特征表征组合：

s、p、g分别为共享、独有专家和组合函数

特征分解对

如前所示，“特征冗余”是多任务学习中负迁移问题产生的原因，而对于原始的特征输入，我们认为其中既包含了任务间的共享信息，也包含了任务的特有信息，因此，我们设计了一个特征分解对模块。如图2右侧所示，特征分解对本质上包含了两个专家网络，一个负责抽取任务间可共享信息，一个负责抽取任务特有特征信息。通过这种显式的划分，将特征抽取分工明确化。

三个约束条件

简单的设计DCP模块无法完成对共享特征和任务特有特征的显式分解。因此，为了使DCP模块中的共享和独有的 expert 网络捕获的信息互补，FDN 引入了两个辅助 loss：一个正交约束条件，使其能够尽可能将两个专家表达的信息表征相关性降低，参考了CV领域中生成对抗中用到的正交约束损失函数：

(1) 正交 loss，对 task 共享和独有的 expert 表征通过Frobenius范数正交得到 loss。

其中K表示task的数量，M表示task k的特征分解对(DCP)数量，f^m_s为表示task k的第m个task共享的特征表征。

(2) 辅助 task loss，对 task 独有的 expert 表征采用 task 本身的 loss，使 task 独有的 expert 可以更好地表征 task 本身的独特性。

其中L_(k,m）为task k的辅助loss函数，可以选择和主loss保持一致，y_k为task k的真实标签，\hat{y}^k_m 为task k中第m个独有特征表征的task预估

(3) feature fusion约束：经过上述两个约束后，将原始特征输入分解为了任务特有特征和另外一部分“准”共享特征，由于在实际业务环境中，原始特征输入可能包含一些噪声信息，因此，该“准”共享特征不能直接作为模型最终各个任务的共享特征存在，为了将其中的噪声进行剔除，我们为所有的“准”共享特征设计了一个特征融合模块，特征融合模块的主要作用是将其进行共享特征“提纯”，提纯之后的数据表征分别流向了各个任务来参与任务的预估表达，该设计被认为是特征共享约束。

实验

实验结果如表 2 所示。FDN 在 CTR 和 CVR 上都优于其他模型。

为了展示 FDN 如何更好地解耦任务特定特征和任务共享特征，将专家的特征投影到 2D 空间中并绘制 tSNE（Hinton 2008）图（一种非线性降维技术，用于将高维数据嵌入 2D 或 3D 空间以进行可视化），图 3 显示 FDN 比其他 SOTA 模型更清楚地区分任务特定特征和任务共享特征。

论文二： Samll tower

背景：

多个目标会相互影响，导致震荡---你降我升，我升你降。甚至有时还会出现Nan的结果，需要很仔细的调参测试+清洗数据才能训练出一个理想的模型。

两个问题：

1.over-parameterization对单任务模型是有价值的，那边对多任务模型是否成立？

这里以将多个目标的线性组合作为优化目标的例子，认为over-parameterization能够帮助处理各任务优化目标之间的冲突问题（既减少跷跷板问题的出现）。

2.大型模型和小型模型进行多目标学习中表现对比？

通过大量对比实验，不论是增加任务相关结构的复杂度，还是增加任务共享结构的复杂度，Pareto frontier都会呈现先变好再变差的趋势。

因此，文章认为over-parameterization并不利于多目标学习中的共享性，进而伤害了多目标学习中的泛化能力。

因此，在多目标学习中，模型大小实质上是对模型有效性和泛化能力的一种平衡

方法

under-parameterized self-auxiliaries的模型结构：利用很少的参数来学习相同的label，从而迫使模型能够学习到更好的泛化性。由于这个办法不涉及模型的变更以及label的变更，所以适应性很强。

通过使用较小的模型来提高任务对不同的泛化能力。（任务量变成了原来的两倍，但是其中有一半任务是under-parameterized，因此也就降低了模型over-parameterized对共享性的破坏力）。

文章认为，这种通过强迫模型学习共享层来提高复数任务的的结构也是一种正则化的手段。

实验

分别在小/中/大型模型上加入small tower后，两个任务目标的准确性变化

参考文献：

FAN： https://arxiv.org/pdf/2302.05031

samll tower：https://arxiv.org/pdf/2008.05808

posted @ 2025-05-20 18:00 WildMay 阅读(400) 评论(1) 收藏举报

刷新页面返回顶部

WildMay