原论文:

《Deep Neural Networks for YouTube Recommendations》--2016年Google发表的paper

相关解读:

https://blog.csdn.net/guoyuhaoaaa/article/details/84938943

https://www.jianshu.com/p/145628954387

 

 

                                                                   系统架构

 

 

                                                  召回模型

 

 

对于海量数据的处理方式

由于该模型面对的是数十亿计的用户和视频输入以及数百万计的类别总数,性能问题是工程实践的重点。youtube采用了以下方案来解决性能问题:

  • 负采样(negative sampling)
    youtube的样本集中,正样本被定义为用户完整地观看一个视频,而负样本的数量远远多于正样本。这里根据负样本的分布特征进行采样,然后在给样本以权重来修复这一采样操作。正负样本都是用cross entropy作为损失函数。实际中,与传统的softmax相比,这一负采样操作可以加快100倍以上的速度。
  • serving时使用KNN代替softmax
    在线serving的时候,我们需要计算出top N个candidate video展现给用户。同时给百万甚至更高级别的item打分对模型性能要求很高,因此在serving时使用了KNN方法来代替softmax。

 

 

                                                       ranking 模型