如何用数据说谎 How to lie with data

不管是前几年流行的手机安兔兔跑分，还是每年双11各家电商晒成绩——人们大概就像希望自己银行卡上的余额那样——越大越好——对“大”数字总是持乐观态度——数据出品方大概也知道大众不会关心这些数字是怎么计算出来的，输出的数字要成为大家的谈资才是更重要的。

用数据说话——数据思维在企业日常沟通中越显重要，大有“Talk is cheap, show me the DATA”之势，但实际上，某些场合下，数字成了装点门面的“饰品”，不管对不对、有没有用，放进报告里就能增强自信，更有甚者，明目张胆地耍数字把戏来误导大众。

通常来说，用数据说谎基本有如下套路：

样本选择，选择不具有代表性(不能代表总体)的特殊样本，样本应该在空间上和时间上都要有代表性；
数据采集，数据来源不靠谱，例如不是专业的人员采集、采集工具不对、方式不对，诱导他人等；
指标选择，滥用均值，虚荣指标等；
结论呈现，过度延伸结论，相关和因果不分，选择性展示结果，或者改变图表scale(让不显著的趋势看起来很显著)；

1 样本选择

“如果想获得赞同，那就找到那些会赞同你的人”——拿不具有代表性的样本来说事通常都是耍流氓。

最常见的有偏样本是商业广告，其次是“幸存者偏差”。商业广告永远只展示好的那一面，“幸存者偏差”则只让我们看到经过层层筛选后剩下的优秀选手，而误以为他们身上的品质都是成功的必要条件(那些“沉默的被淘汰者”却常常被忽视)。

e.g. 高考状元代言补脑产品；

e.g. “你看人家那谁谁，长年烟酒不离，照样活了90多岁”；

e.g. 公众号文章下大多时候只放出对文章观点有利的留言；

e.g. 战争时期，军队的死亡率低于城市居民，所以参军更安全？军队都是年轻力壮的年轻人呢，剩下的人群中的老弱病残则是拉升死亡率的主要因素；

e.g. 问题的暴露性，打车遇到安全事件的概率整体是保持稳定的，只不过现在网络平台上更容易暴露出来，就像以前说农村得癌症的人少，就认为农村是很健康的，其实不是，过去的农村医疗条件和健康意识缺乏，很多人得了癌症但是没有去医院或者被当做普通疾病，后来医疗条件好了暴露就更多了；

破解方法：

看样本占总体比例，少数不能代表大多数；
看事件发生的概率，警惕美好而不可控的小概率事件(不要一厢情愿和自欺欺人)；
找事件的反例，然后找正例和反例的相似性，e.g.成功的人喜欢吹牛(例如马云)，不过失败的的人也吹(贾布斯)，可见吹牛和成功的关系并不大；
如果涉及到对比，要看抽样的时间点、人群能不能匹配上，有没有可比性；

这里还要另外提一下，局部不能代表整体，整体也不能代表局部。

e.g. 辛普森悖论

e.g. 偏态分布(例如收入)中，“拖后腿”的弱势群体经常“被代表”(整体的数据)，经济增长可能代表收入处于top5%的那群人增加了，实际上剩下的95%的收入都有下降

，只不过整体看起来是增长了。

2 数据采集

关于具身认知的“吊桥试验”告诉我们，心跳的感觉不一定是因为对方令人心动，而是当时的情境真的是让人心跳加速(吓死个人啊)。

身处环境、社交面具(社会认同、社交礼貌等)、利益诱导等，都会让人变得不客观，所以这时给到的回答往往也不可信。

当然，做调研时可能人员都没经过培训、提的问题可能也经不起推敲。

“你觉得自己是个好人吗？”

“填完这个问卷，将获得50元超市购物券”

破解方法：

数据来源是哪？谁采集的？
用的什么工具？靠谱么？
怎么开展的调研？会不会引导调研对象？

3 指标选择

指标选择上常出现的Trick有：

滥用均值，无视数据分布及28法则；
绝对量和比例的误导；
虚荣指标，有量无质；

滥用均值

样本中混入极端值，那就不能用均值(否则应该提出极端值)。

e.g. 如果富豪们都是农村户口，那么农村人均收入应该能上升很多。

e.g. 人均收入，不管是算行业、城市、应届生等，总会有大部分的人发现自己“拖后腿”了，因为收入是符合28法则的；

绝对量和比例的误导

e.g. 公众号关注人数，昨天有10人，今天新增10人，如果看增长率那就是100%，看着很好，其实一般。

如果基数很小的时候，报绝对量通常是更好的选择。一般基数很大的时候使用比例，e.g. 企业的销售额，去年1000亿，今年1200亿，说同比增加20%是可以的。

涉及到比例的时候还需要注意分子和分母各自的限定范围。

虚荣指标

虚荣指标通常的特征就是越大越好(满足虚荣心)，然并卵，大都是有“量”无“质”，其背后往往都是“自定义的口径”，而不是行业公认的准确计算口径。

e.g. 没有一支球队能够在世界杯上击败中国队两次以上；

e.g. 双11电商晒成绩，预付、预热、退款前的都可能在里面；

e.g. app下载量、存量用户数，历史访问UV(甚至爬虫、刷量也在里面)等；

e.g. 营业额中有很大一块是在经销商的库存中，实际卖到消费者手中的产品并没有那么多；

破解方法：

怎么算的？计算口径(公式)是啥？口径为什么这么定义？
价值是什么？反应了什么问题，有何启示？

4 结论呈现

第一层次是选择性展示结果以及在数据可视化上动手脚，

e.g. 只展示对自己有利或者符合预期的结果、改变坐标轴尺度、截断坐标轴起点等；

更多参考

第二层次是混淆相关和因果，

e.g.我和一条狗都往同一个方向走，但不能说明狗子就是我的，我们只是顺路而已；

共变背后都有第三方的潜在因素，“时间”是最容易被忽视的潜变量之一。

区分因果和相关需要注意，归因的时候要注意区分充分必要条件，此外，大部分的因果关系是在“试验对比”下发现并验证的(没有对比就下结论的通常是在耍流氓)。

第三层次是过度延伸结论，

e.g. 有个妹子表示对某男生有好感，但不能说这个妹子愿意和这个男生结婚，可能妹子只是想让这个男生帮忙辅导她某门功课

，简而言之，“想多了

”。

大众媒体并不是那么专业，毕竟粉丝数量不代表其发文的质量

更多参考果壳问答

破解方法：

相信常识，不为“怪、力、乱、神”所扰，大部分想“颠覆”常识的事情都是哗众取宠；
找反例，理清楚充分条件和必要条件，吹?可能是成功的充分条件，但不是必要条件(马云和贾布斯)；
扩展视野，发现被忽略的因素，当信息被人别有用心地选择性展示的时候，一定要非常小心，没有展示出来的东西可能更重要；

更多参考：

「数据会说谎」的真实例子有哪些？

http://www.searchmarketingart.com/3-types-of-data-lying.html

https://www.huffingtonpost.com/raviparikh/lie-with-data-visualization_b_5169715.html

posted @ 2020-03-23 15:23 dataxon 阅读(422) 评论(0) 收藏举报

刷新页面返回顶部

dataxon

Rock with Data !

如何用数据说谎 How to lie with data

1 样本选择

2 数据采集

3 指标选择

滥用均值

绝对量和比例的误导

虚荣指标

4 结论呈现

公告