阿里两阶段长序列建模SIM:《Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction》

背景

用户的行为序列对于建模用户兴趣是非常重要的,但是像DIN/MHTA这种建模方式受性能的制约一般只能建模50~100长度的序列,但是在电商、短视频等用户行为比较丰富的场景,用户的行为序列长度可能过万。

直接对这么长的序列建模肯定不可行的,阿里提出了两阶段长序列建模的方案SIM:

  1. 用target item从用户行为序列中检索出最相关的k个item,构成一个短序列
  2. 用DIN/DIEN等方式对检索出的短序列建模

 

方法

完整的系统架构如上图所示,包含两个阶段:

第一个阶段用target item从用户行为序列中检索出最相关的k个item,构成一个短序列

有Soft Search 和 Hard Search两种检索方法

  • Soft Search:训练一个类似DIN结构的模型对用户长序列建模,建模后得到item embedding(用召回双塔训练的得到的item embedding是不是也可以?),检索时通过embedding相似度检索,为了提高效率可以用ANN检索方式(论文用的ALSH)
  • Hard Search:用target item的类别/标签去检索同类别/标签的item

论文经过实验发现两种检索方式效果差不多,但是Hard Search更容易部署上线,因此最终采用了Hard Search的检索方式

 

第二阶段用DIN/DIEN等方式对检索出的短序列进行精确建模

 

参考资料

https://zhuanlan.zhihu.com/p/148416488?utm_id=0

https://zhuanlan.zhihu.com/p/154401513

posted @ 2024-01-15 17:16  AI_Engineer  阅读(312)  评论(0)    收藏  举报