京东最新点击率预估模型论文学习和分享

最近看了京东算法团队最新发表的一篇点击率预估模型的paper Telepath: Understanding Users from a Human Vision Perspective in Large-Scale Recommender Systems,在这里分享一下。

这篇paper的创新点主要体现在尝试从用户视觉的角度来反映图片/文字等信息对CTR的影响。从用户视觉的角度来看,有两个关键方面会影响用户的行为:一是商品的吸引力;二是商品与当前用户兴趣的匹配度。而paper中介绍的Telepath模型是融合了CNN、RNN、DNN这三种不同的神经网络模型的结果。其中CNN是用于模拟用户的视觉系统从而提取出体现商品吸引力的关键的视觉信号(key vision signal);而RNN和DNN则是基于用户的浏览商品行为来模拟其兴趣信息。这样一个模型在京东的推荐系统和广告系统中中得到应用,并取得了效果提升。

首先看一下Telepath模型的框架图:

Vision Extraction Module

输入数据是用户最近浏览过的N个商品,以及待预估商品的图像信息,该module用于模拟用户的视觉系统从而提取出体现商品吸引力的关键的视觉信号(key vision signal),并表示成向量用于后续处理。相比于传统的item-to-vector方法,其对于展现次数较少的长尾商品的拟合更好,能够更好地解决物品冷启动问题,并具有更好的特征表达能力(可以表达例如颜色等信息)。使用CNN是因为其适用于处理图像信息。

Interest Understanding Module

基于上述Vision Extraction Module产出的体现商品吸引力的关键的视觉信号信息,可以使用用户最近浏览的商品的这些信息来得到用户的兴趣偏好,故使用了RNN这样一个适用于处理序列信息(用户浏览商品序列)的模型;而DNN适用于处理序列中隐藏的用户偏好信息。

Scoring Module

现在可以使用的特征包括:待预估商品的图像信息;用户的偏好信息;用户和商品的统计类信息。前两者是使用Vision Extraction Module和Interest Understanding Module得到的;而第三种信息则是一使用wide&deep model得到的特征向量,wide部分用于学习特征交叉的记忆类信息,deep部分用于学习隐藏的特征组合信息。最后将这三种特征组合进行打分预测。

 

posted @ 2017-12-19 00:52  笨兔勿应  阅读(1556)  评论(0编辑  收藏  举报