阿里两阶段长序列建模SIM：《Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction》

背景

用户的行为序列对于建模用户兴趣是非常重要的，但是像DIN/MHTA这种建模方式受性能的制约一般只能建模50~100长度的序列，但是在电商、短视频等用户行为比较丰富的场景，用户的行为序列长度可能过万。

直接对这么长的序列建模肯定不可行的，阿里提出了两阶段长序列建模的方案SIM：

完整的系统架构如上图所示，包含两个阶段：

第一个阶段用target item从用户行为序列中检索出最相关的k个item，构成一个短序列

有Soft Search 和 Hard Search两种检索方法

Soft Search：训练一个类似DIN结构的模型对用户长序列建模，建模后得到item embedding（用召回双塔训练的得到的item embedding是不是也可以？），检索时通过embedding相似度检索，为了提高效率可以用ANN检索方式（论文用的ALSH）
Hard Search：用target item的类别/标签去检索同类别/标签的item

论文经过实验发现两种检索方式效果差不多，但是Hard Search更容易部署上线，因此最终采用了Hard Search的检索方式

第二阶段用DIN/DIEN等方式对检索出的短序列进行精确建模

posted @ 2024-01-15 17:16 AI_Engineer 阅读(390) 评论(0) 收藏举报

刷新页面返回顶部