google item 冷启动召回CDN 《Empowering Long-tail Item Recommendation through Cross Decoupling Network (CDN)》
背景
推荐系统中常常存在长尾分布的问题,也就是说少量item占了大量的曝光,而数目比较大长尾item占了少量的曝光,这会导致推荐系统存在两个问题:
- item记忆性特征不容易学好,对于长尾item,由于其曝光很少,导致其记忆性的特征很难学好(如item id),但是这类特征往往是推荐模型中非常重要的个性化特征
- user对item喜好不容易学好,由于训练集中的正样本大部分都是热门item,模型容易被热门item主导,偏向于热门item,形成“马太效应”,热门item的下发占比会越来越高,长尾item的下发占比会越来越低
模型架构

对于第一个问题,CDN 在 item 侧解耦了记忆特征和泛化特征,即记忆特征单独用一个专家网络建模,泛化特征用另一个专家网络建模,最后输入item曝光频率到gate网络得到两个专家网络的融合权重,最后的item tower的结果是记忆tower和泛化tower的加权和
对于第二个问题,CDN 在 user 侧使用了两个tower(两个tower底层共享),第一个tower使用曝光数据流训练,第二个tower使用对热门item降采样后数据流训练
参考资料
KDD'23 谷歌 | CDN:交叉解耦网络来应对长尾分布的item推荐Empowering Long-tail Item Recommendation through Cross Decoupli

浙公网安备 33010602011771号