阿里长序列建模论文MIMN:《Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction》

背景

这里阿里2019 kdd提出的长序列建模论文,在阿里电商场景下,其中90%特征都是序列特征,且建模的序列长度为1000时比序列长度为100时auc能带来0.6%的提升。但是长序列建模受到了存储延迟的双重制约

论证主要有两点贡献:

  1. 从服务系统的角度来看,论文通过设计一个名为 UIC(用户兴趣中心)的独立模块,将用户兴趣建模中最消耗资源的部分从整个模型中解耦出来。UIC 为每个用户维护最新的兴趣状态,其更新依赖于实时用户行为触发事件,而非流量请求。因此,UIC 对于实时 CTR 预测没有延迟。
  2. 从机器学习算法的角度来看,借鉴神经图灵机(NTM)中记忆网络的思想,提出了一种名为MIMN(多通道用户兴趣记忆网络)的新型架构。MIMN 以增量方式工作,并且可以轻松与 UIC 模块结合实现。MIMN 通过内存利用正则化和内存归纳单元这两种设计改进了传统的 NTM,使其在有限存储下对用户行为序列进行建模更加高效,并在模型性能上带来显著提升。

 

服务架构

图(A)是阿里原来的CTR在线服务架构,图(B)是这篇论文提出的新的服务架构,主要不同点在于新架构采用了一个UIE(用户兴趣中心)来表示最新的用户兴趣,该模块的更新是用户行为触发的,而不是请求触发的。完全和CTR模型解藕,对于CTR模型来说是0延迟的。UIC 可以将具有 1000 个用户行为长度的 DIEN 模型的延迟,在每秒 500 次查询(QPS)的情况下,从 200 毫秒降低到 19 毫秒

 

模型结构

MIMN模型结构如上图所示,左侧是针对用户序列的多通道兴趣建模(如下图所示,相似物品放在同一通道),是MIMN的核心部分。右侧是和DIN类似的模型结构。

 

总结

1. 为了解决长序列建模的性能问题,DSIN通过把序列分为不同session,假设了同session行为包含了用户相同兴趣,划分方式太hard,MIND借用了NTM采用了更soft的方式,把用户行为序列压缩到不同通道内

2. 用户兴趣表示是在一个独立服务(UIC server),和原CTR模型解藕,UIC的更新是user event触发的,只适用于user event数目远小于user request数目的场景

 

参考资料

【总结】推荐系统——精排篇【3】DIN/DIEN/BST/DSIN/MIMN/SIM/CAN

一文读懂MIMN算法

posted @ 2024-01-29 16:06  AI_Engineer  阅读(135)  评论(0)    收藏  举报