【转】泊松回归:Large-Scale Behavioral Targeting

转自:http://irwenqiang.lofter.com/post/1d7399_6bc1f2

 

Author: Ye. Chen, D. Pavlov, and J. F. Canny.

ACM Conference on Knowledge Discovery and Data Mining (KDD 2009), 2009

 

Behavior Targeting根据用户历史行为信息,建立logistic回归模型预测CTR,选择最相关的广告显示给用户。

本篇文章在Hadoop MapReduce框架的基础上设计实现了一种高效可伸缩性的BT解决方案。

 

主要贡献:

  1. 设计和实现基于Hadoop的统计学习算法

  2. 无论滑动窗口的粒度多大,特征向量生成算法的时间复杂度为O(n)

  3. 在海量数据学习的过程中,通过在内存中的计算方式,减少磁盘IO

  4. 高效的数据结构,模型和数据的稀疏表示,更加快速的模型更新线性Poisson模模型

模型:

       用户行为数据的统计模型服从Poisson分布,构建基于用户行为的线性poisson回归模型。

  • Y表示目标事件的观测统计值(譬如某个类目的广告点击数或者浏览次数等);

  • λ表示Poisson模型中的参数,表示时间窗口中事件出现次数的均值;

  • w代表预测的特征向量上各分量上的权重;

  • x表示通过词袋子模型建立的用户特征向量。概率密度是:

给定用户行为数据集 , n表示训练样本的数量,利用最大似然法(MLE)求模型参数w:

表示对数似然形式

对wj求导得到

i表示一个用户或者一个训练样本

w可以通过梯度下降迭代或者更快的Newton-Raphson 方法求解

得到收敛的w之后,就可以得到每个X对应的λ 。 对广告view 和 click 分别用Poisson 回归建模,然后根据

可求得用户i对类目k上的CTR。 α和β是平滑参数,α/β为该类目的默认CTR(该类目的平均CTR)。为了防止点击浏览概率都为零时出现问题而引入。

 

在线更新:

根据新的事件在线更新 :

  • 线性Poisson模型的更新方式

  • 指数形式Poisson模型的更新方式

    而计算机计算对数和指数运算需要更多的空间和时间

其中,为随时间的衰减指数。Δt 为更新时间距离λ的时间窗口数

 

评测指标:

CTR lift 曲线,相对baseline CTR lift 进行比较 AUC (area under ROC)

 

 

 

posted on 2016-02-16 17:35  windabc  阅读(331)  评论(0)    收藏  举报

导航