CTR预估(1)--CTR基础

1、评价指标体系

  1)logloss:评价点击率预测的准确性

  计算公式:

  

  对于ctr计算来说:

  

  最后化简可以成为:

  

  最后的计算代码:

  

  这样的计算代码中在使用log计算时pctr[i]中的必须判断是否为0,否则出现无穷的情况;

  2)AUC指标

  使用二分类举例:

  首先根据分类结果统计一个混淆矩阵:

  

  举例:

  

  二分类的评价指标:

  

  预测准确率表示:在预测值中为1的预测的准确率

  召回率表示:真实值为1的预测正确的比例

  正确率:整个预测的正确率1预测1 + 0预测0 /全部;

  ROC图:越靠近左上部分的分类效果就越好;以FP Rate为横坐标, TP Rate为纵坐标;

  

  ctr 预估是一个二分类问题,可以根据ctr的预测设置阈值然后统计FP Rate和 TP Rate,然后根据这两个值画出ROC曲线:

  

  为了避免阈值对分类器结果造成影响,引入AUC进行评价;

  AUC:area under curve:

  

  

  

 

   线上指标:

  

  对于线上指标,cpm要涨,但是cpc要维持稳定;

  

  上线需要根据具体的要求进行调整,看看是依靠点击率还是依靠点击单价进行;

2、评估系统

  

 

   广告请求到来后,进行ctr预估系统,系统从广告库中选择广告进行ctr预估,产生点击率预估值;预估的流程:

  

  首先对数据进行预处理,通过对广告设置埋点,一旦广告被点击生成唯一的urlId进入点击日志系统与展示日志进行匹配完成一次点击统计,由于样本库巨大需呀对其进行采样,对于点击率来说大多数的结果都是很小也就是一个负样本,因此需要对其进行负采样,这样做的目的就在于减少训练数据的规模,同时还可以增加正样本的比例,使得AUC还会增加也就是分类器的效果更好。

  然后进行特征工程,对特征进行筛选,选择出有用的特征或者对特征进行处理;

3、项目介绍

  

 

posted @ 2017-02-16 14:16  罐装可乐  阅读(3252)  评论(0编辑  收藏