【经验分享】卡方检验实战--检验次日留存率与用户分类的独立性

问题背景

最近某个游戏内测,给到一批内测用户,并且将每位用户标记为RPG游戏用户休闲游戏用户卡牌游戏用户中的一种。期望分别统计出这几类用户的次日留存率,并观察是否有明显的区别,用于指导后续开展游戏运营活动。

这里记录使用卡方检验技术验证用户种类与次日行为的独立性,作为备忘。

统计结果

经过数据清理和统计,得到下面的结果

用户类型

注册日期

注册人数

次日留存用户

次日留存率

平均次日留存率

RPG

day1

2,504

752

69.97%

74.50%

RPG

day2

2,718

701

74.21%

RPG

day3

2,538

692

72.73%

RPG

day4

2,207

540

75.53%

RPG

day5

2,004

464

76.85%

RPG

day6

1,899

458

75.88%

RPG

day7

1,243

294

76.35%

休闲

day1

2,983

925

68.99%

73.45%

休闲

day2

3,219

864

73.16%

休闲

day3

3,067

863

71.86%

休闲

day4

2,715

686

74.73%

休闲

day5

2,442

607

75.14%

休闲

day6

2,295

584

74.55%

休闲

day7

1,523

370

75.71%

卡牌

day1

2,102

675

67.89%

73.04%

卡牌

day2

2,198

584

73.43%

卡牌

day3

1,908

542

71.59%

卡牌

day4

1,643

422

74.32%

卡牌

day5

1,454

372

74.42%

卡牌

day6

1,382

370

73.23%

卡牌

day7

883

208

76.44%

P.S.: 上面数据在不影响效果的基础上,进行过处理,并不代表真实的业务数据。

通过观察上面的数据,基本上可以判断不同类型游戏的次日留存率没有显著区别。但是,真的是这样吗?

 

卡方检验

可以通过卡方[1]检验来验证不同类别的游戏用户的流失和留存人数是否相互独立。

假设

原始假设H­0:用户次日行为与用户类别相互独立。

备选假设Ha:用户次日行为与用户类别有相关性。

PS:次日行为指次日流失或留存,用户类别为RPG,休闲或卡片类

选择显著性水平α=1%

统计

在R中,通过卡方检验,可以得到如下统计结果

clip_image002

卡方值:9.36, p值[4]:0.9%

结论

由于P值=0.9%,小于显著性水平α=1%,所以可以拒绝原始假设H0,接受备选假设H­a,也就是用户的类别的确影响了用户的次日留存情况,并不是相互独立的。

这里下载统计代码和数据。

 

参考

[1] 卡方检验wiki

[2] 卡方检验实战

[3] 《深入浅出统计学/Head First Statistics》第十四章

[4] P值wiki

posted @ 2014-09-01 16:26  bourneli  阅读(1776)  评论(0编辑  收藏  举报