美团外卖生成式推荐模型MTGR
特征
DLRM模型使用特征可以概括为:User Profile、Context、User Behaviour Sequence、Target item 这几类特征,MTGR使用的特征和DLRM基本一致,但是由于采用的是HSTU序列建模的架构,特征都是以token的方式组织的:
- User Profile每一个特征都表示为一个Token
- User Behaviour Sequence每一个具体行为对应的item ID以及多个side info的Embedding表征拼接在一起再通过非线形映射组装成一个Token
- 对于每一个曝光,将item ID、对应的side info、交叉特征、时空等Context信息拼接在一起组成一Token
样本组织

DLRM每个曝光对应一条样本,MTGR针对用户粒度按照一天的曝光数据进行压缩,一个用户对应一条样本
DLRM在处理不同长度的序列数据时,往往使用padding进行补全,MTGR采用稀疏化存储,配合JaggedTensor以及变长的HSTU算子,抛弃了全部padding操作以降低无效存储和冗余计算。额外的,为了避免训练穿越,对于用户行为序列以及target item,在数据中保存了其发生的原始时间戳,以用于生产掩码保证正确的因果性
模型架构

MTGR的模型架构如上图所示:
- 先通过embedding层获取特征embedding
- 按前面介绍的,把特征处理成token的形式
- 把特征token输入到HSTU,采用了Group LayerNorm(针对不同类别的Token采用不同的LayerNorm参数,以实现不同语义空间下Token的对齐)
- 对于每个曝光样本的位置的输出接一个MMOE模型做多目标预测
实验指标


浙公网安备 33010602011771号