多任务学习算法综述

在做客户经营、精准营销、推荐等业务场景中往往会遇到数据稀疏，样本选择偏差的问题

一、《Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate》简称：ESMM，paper下载地址：https://arxiv.org/pdf/1804.07931.pdf。

　　这篇文章主要介绍在电商推荐、广告等领域经常会需要对点击之后的转化（CVR）进行预估，而在预测CVR的过程中，会出现数据稀疏和样本选择偏差的问题：如下图所示：

所谓样本选择偏差指的是：训练样本与预测样本的分布不一致，从上图可以清楚看出，训练样本是用户点击之后的样本（点击之后转化作为正样本，未转化作为负样本），这样的样本选择空间就局限于用户点击之后的样本空间，但我们最后在预测的时候往往是需要预测全量样本空间。

所谓数据稀疏指的是：推荐系统展现给用户的商品数量要远远大于被用户点击的商品数量，同时有点击行为大部分都是活跃用户贡献的，占所有用户非常小的一部分。这就是所谓的训练数据稀疏的问题，高度稀疏的训练数据使得模型的学习变得相当困难。

在这样的背景下，阿里的工程师们提出如下解决方案：

主要思路就是缺什么补什么，前面分析不是说CVR模型训练样本相比全量样本空间小的吗，所以就引入曝光到点击的CTR过程来辅助训练，网络中通过共享底层的Embedding来进行信息共享。个人理解是将整个用户转化链路能够形成end to end的模型进行拟合。

二、MMOE【https://dl.acm.org/doi/pdf/10.1145/3219819.3220007】

如下图所示，我们经常简单的多任务模型往往是如下（a）所示，通过共享Embedding层来实现信息共享。图（b）则是针对不同的任务，有多个专家进行学习，并通过一个门控制（Attention机制貌似也可以，后面实现PLE我采用的是Attention机制替代gate），门控制机制可以决定不同的任务哪些专家作用的程度。图（c）表示的意思是说多个任务有多个专家进行学习，最终每个任务都有一个专门的gate门控制控制每个专家对不同任务的贡献程度。

图C就是MMOE的主要思想。但是我们不难发现，

1、图C中专家在学习的时候，不同的任务可以update的参数只有一个门控制来提高，其他参数更新的话，必然还是引起其他任务的性能。所示MMOE还是存在一定程度“跷跷板”现象。

2、图a,b,c都是共享层的专家学习，并把所有的专家都用于不同的任务学习，各任务之间特有的信息就很难去表征。

MOE、MMOE存在的问题是说底层的专家都是作为不同的任务输入，若某个任务更新了专家的参数，则会影响到其他任务的学习。

三、PLE

针对MMOE存在的跷跷板的问题，主要原因是每个专家都作为所有任务的输入，导致单个任务调整参数对其他任务造成的影响，于是，腾讯的专家们提出了CGC和PLE两个框架。其中PLE是基于CGC的基础之上，增加了全联接层提取不同专家之间交叉特征。而CGC的主要核心思想是说每个任务都有特有的专家部分和不同任务之间共享的专家部门，由这两个部分最终决定某一个任务的结果。模型在学习的时候可以同时更新特有的专家和公共部分的专家，从而达到消除跷跷板的影响。下面可以详细介绍如下：

1、CGC的网络结构