AB 测试案例 - trigger推送提升移动支付使用

 

目标:

增加用户对移动支付 的使用!

变量:

trigger 短信

假设:

对于满足 trigger的 人群 ( 新添加卡到移动支付 的客户 ) ,通过 “发短信”/“发邮件”的方式提醒客户,会提升移动支付的使用次数移动消费金额/ 人数

 1)使用人数 -> 使用 or Not ,

2)消费金额 -> 波动大,受极端影响

 

假设检验:

原假设: 发/不发的两组,平均使用移动支付的次数一样。 备择假设: “发”的组移动支付的比例会上升。

AB评价指标:

响应进行消费 : 定义在 XX时间内算  ?  因为一个月内最多发一条:因此最长30 天。 Sara 建议 7 - 10 天合理;

7 天合理比10 天好,因为消费的最小周期是包含周末;

存在问题:我们同时会有其他的 mobile payment 的活动,比如 一年时间有几个季节性促销也有移动支付消费奖励,因果推断的变量因素不唯一。

如何解决:1)不应该把响应时间范围定义那么长 !

可以选择(1) Yes/No使用人数,  这个适合 对 移动支付的acquisition 阶段;不够细; 适用于移动支付不太普及的情况下可以。

   (2)使用次数, - 如果都会响应,就看响应的次数

(3)移动消费金额 - 是一个可以的指标,但没有次数更能体现活跃率,

实验单位:

 用户 -本身这是customer level 的trigger

  • 保证用户体验的一致性
  • 实验单位与评价指标一致
  • 样本量尽可能多

计算样本量:

1)对照组 与 实验组 差值

差值越小,则越需要更多的样本量提高power,提高精确度才能检测出来!

如何确定 ? 

  • 成本收益计算; 大于收益平衡点
  • 历史波动从显著的角度计算。大于 95%的波动区间

 

  • 响应人数 - 比例类指标

p=0.2, sigma =  0.16 , s= sqrt(sigma) =0.4 ,  根据分布计算 95%波动在   X = [0.174,  0.226]  => 这里是12其实不够,要求 np>5,即至少n>25

因此 Delta = 0.26%

 

  • 次数/金额 - 均值指标:  拿历史上这类trigger的样本

提取历史上N=12个样本 - 月(应该是一个响应周期)度消费次数,按基本定义计算u=6.6 , sigma = 0.875 ;

 

2)计算指标方差 - (而非实验样本的方差!!

(法1 通过公式)

  • 响应人数 - 比例类指标

找历史上的响应水平,用最低 p=20%,则单个样本方差为: sigma = p(1-p) = 0.2 * 0.8 = 0.16

 

  • 次数/金额 - 均值指标:  拿历史上这类trigger的样本

提取历史上N=12个样本 - 月(应该是一个响应周期)度消费次数,按基本定义计算u=6.6 , sigma = 0.875 ;

 

(法2 通过实践)

对于没有历史数据的情况下,

通过多个不同样本AA测试,

一个大AA样本 (bootstrapping 算法),再在大样本中置换抽样大小不同样本计算指标

 

3)计算样本综合方差 (这是实验样本的方差!!

(法1 通过公式)

  • 响应人数 - 比例类指标

对照组:单个样本方差为: sigma = p(1-p) = 0.2 * 0.8 = 0.16 ;

实验组:单个样本方差为: sigma = (0.2 + 26%) * ( 1-0.2-26%) = 0.2484

所以 Sigma综合 = 0.16 + 0.2484 = 0.4084 

 

  • 次数/金额 - 均值指标

对照组 u=6.6 , sigma = 0.875 ;

实验组 u=6.6 ( 1+0.27%) , sigma = 0.875 ( 这里假设 方差齐性,同时服从正态分布 )

所以 Sigma综合 = 0.875 + 0.875 = 1.75

 

4)样本量计算

显著水平 alpha (0.05),即是第一类error,假阳性越小,结果越精确,需要样本量越大。

Power (1-beta) 即是 第二类错误的反义,power越大,样本量越大; power代表雷达/AB测试的灵敏度 ,power越大越灵敏,越能探测不同。

实验组对照组综合方差,波动越大,方差越大,样本量越大

 

简化为: n = ( -  )^2 * S综合^2 / delta^2   =  8 sigma综合 / delta^2  = 8 S^2 / delta^2

正负总样本 乘以  2: 

 

响应人数 - 比例类指标

16 S^2 / delta^2  =

16 * 0.4084 / (0.26% )^2=966,627 

 

次数/金额 - 均值指标

16 * 1.75 / (0.27 )^2=384

 

 

实验时间

不超过30天,超过 30天后,客户就可能被再次 Trigger短信 target。

分组:

随机分, 其中 A组每次都发, B组都不发

分组考虑:

 

结果合理性检验

1) 波动率

  • 响应人数 - 比例类指标 (比例类不需要历史数据!!

最低 p=20%,则实验/对照标准差为: s= p(1-p) /12= 0.2 * 0.8 = 0.16 /12 = 0.0133   => 这里是12其实不够,要求 np>5,即至少n>25

=>   X +- u /s标准差 = +- 1.96  ( 95%置信区间的 Z值)

=> X =[ 0.2- 0.0133 *1.96 , 0.2+ 0.0133 *1.96 ]  =>  X = [0.174,  0.226]

 

  • 次数/金额 - 均值指标 (需要历史上这类trigger的样本

u=6.6 , sigma = 0.875 ;  =>   s标准差 = sqrt(0.875 ) = 0.9354

X +- u /s标准差= +- 1.96  ( 95%置信区间的 Z值)

=> X =[ 6.6 - 0.9354*1.96 , 6.6 + 0.9354*1.96 ]  =>  X =  [4.77 , 8.43 ] = 6* [0.7227,  1.2773]

 

2)常见分组问题

  • 独立性:AB组是随机分的,不影响,一笔社交网络/共享经济会多点
  • 多重检验 :在提前分析结果,分析多个指标,拆分细分维度时,会有
  • 辛普森悖论 : 分组是否在重要特征上均匀
  • 学习效应 - 厌恶/新奇 : 老客户才会存在,对新界面有新奇或者厌恶的感受,延长时间

 

结论分析:

  • 实验数据:

 

 

(1)均值类

X1=6.6,  X2=5.9 , n1=n2 = 12

P-rt =0.724

P-2t=1.448

  • 结果分析:
    • p值未通过检验,没有通过检验
    • 从波动率来看 5.9在正常波动范围内,没有通过检验

(2)概率比例类

p = 52%

 

  • 结果分析:
    • 置信区间  [0.174,  0.226],  0.52 >> 0.226 , 通过检验

 

posted @ 2021-10-27 21:44  Leo叶  阅读(142)  评论(0)    收藏  举报