google item 冷启动召回CDN 《Empowering Long-tail Item Recommendation through Cross Decoupling Network (CDN)》

背景

推荐系统中常常存在长尾分布的问题,也就是说少量item占了大量的曝光,而数目比较大长尾item占了少量的曝光,这会导致推荐系统存在两个问题:

  1. item记忆性特征不容易学好,对于长尾item,由于其曝光很少,导致其记忆性的特征很难学好(如item id),但是这类特征往往是推荐模型中非常重要的个性化特征
  2. user对item喜好不容易学好,由于训练集中的正样本大部分都是热门item,模型容易被热门item主导,偏向于热门item,形成“马太效应”,热门item的下发占比会越来越高,长尾item的下发占比会越来越低

 

模型架构

对于第一个问题,CDN 在 item 侧解耦了记忆特征泛化特征,即记忆特征单独用一个专家网络建模,泛化特征用另一个专家网络建模,最后输入item曝光频率gate网络得到两个专家网络的融合权重,最后的item tower的结果是记忆tower和泛化tower的加权和

对于第二个问题,CDN 在 user 侧使用了两个tower(两个tower底层共享),第一个tower使用曝光数据流训练,第二个tower使用对热门item降采样后数据流训练

 

参考资料

似曾相识:谈Google CDN长尾物料推荐

KDD'23 谷歌 | CDN:交叉解耦网络来应对长尾分布的item推荐Empowering Long-tail Item Recommendation through Cross Decoupli

 

posted @ 2025-07-23 19:44  AI_Engineer  阅读(28)  评论(0)    收藏  举报