回想过往,我意识到让我痛恨微积分课的不是数学,而是从来就没有人想到要告诉我数学的意义是什么。

相信我,技术细节十分重要(也十分有趣),但是如果你不知道它们的出发点是什么,那么摆在你面前的将会是一堆天书般的符号。如果连你自己都不相信学习统计学是一件有意义的事情,那么你或许根本不会去关心所谓的出发点。

用数据说谎容易,但是用数据说出真相却很难。

这对于概括场上进行的比赛非常有用。传球效绩指数是否起到了简化问题的作用?是的,但这同时也反映了描述统计学的优势和劣势。仅凭一个数字,你就可以知道杰·卡特勒在与格林湾的那场比赛中败给了亚伦•罗杰斯;但你却无法从这个数字中读出运动员在比赛中的运气是好是坏;不知道他是否传出了一个漂亮的过人球却被愚蠢的队友错过了,导致这个球最终被对方截获;不知道他是否在比赛的某些关键时刻顶住压力发挥出色(因为每一次的成功发球在统计时都被同等对待,不论是决定性的三次触地还是比赛接近尾声时那些毫无意义的发球);不知道那一场的防守是否糟糕透顶……读不出来的信息还有很多。

在美国,衡量一个学生的高中和大学学业表现的方法是计算平均成绩点数(GPA),通俗点儿说就是学生在校的平均成绩。如果一门课的成绩为A,那么就可以获得4点,B是3点,C是2点,以此类推。当高中毕业生申请大学、大学毕业生找工作时,GPA就是评价他们学术潜力的一个方便快捷的指标。一个GPA为3.7的学生显然要比另一个GPA只有2_5的学生的实力强,这就使得GPA成为一个受人欢迎的描述性数据,不仅计算容易、理解容易,而且对不同学生进行比较也很容易。         但这一衡量指标并不完美。GPA没有反映不同学生所选课程的难易程度,假设一个GPA为3.4的学生选的都是相对没有挑战性的课,而另一名GPA只有2.9的学生的课程表里尽是微积分、物理这类难学的课,我们能一口判定孰优孰劣吗?我以前所在的高中就试图解决这一问题,学校规定比较难学的课程会有额外的加分,这些课程如果期末成绩为A,那么就会有5点的奖励,而非原来的4点。但这也带来了新的问题,我的母亲很快就反应过来,在新的GPA计算方法下,对于一个选了很多加分课程的学生来说(比如说我),其他普通课程就算做到最好,也就是拿到了A,最终的平均分也会被拉下来。

概率在有些情况下甚至可以被用来判断考试作弊。一家由美国学术能力评估考试(SAT)的一位开发者创办的考试安全公司,专注于提供“数据取证”服务,为客户寻找考试作弊的蛛丝马迹。举个例子,在学校或考点进行的考试,多名考生以同样的答案答错同一道题的情况是极少见的,通常发生的概率只有不到百万分之一,如果有类似的情况出现,该公司就会予以标记。其数学逻辑源自一个事实,即当大部分考生对某道题都给出了正确答案时,我们并不会感到大惊小怪,因为这是他们应该做的事情。这些考生有作弊的可能,但他们凭一己之力做对题的可能性更大。但是当这一群考生答错题的时候,他们的错误答案不应该是完全一样的,如果错误答案完全一样,那么他们就有可能是相互抄袭(或者通过短信息分享答案)。此外,还有几种情况会引起该公司的注意,比如在一场考试中,考生在难题上的正确率大大高于容易的题(这意味着他们有可能提前就知道答案);又或者在一场考试中,收上来的答题卡上“错改对”的涂改痕迹要明显多于“对改错”(这意味着有可能是老师或监考人员在考试结束后对答题卡动了手脚)。

人均收入仅仅是将整个国家所有人的收入加起来再除以总人口数,我们无法从这个计算结果中得知各阶级收入所占的比例,无论是1980年还是2010年。正如“占领华尔街”运动的示威者所指出的,处于收入排行榜顶端的那1%的人,他们收入的爆炸性增长能够显着地拉动人均收入水平的整体提升,但同时不需要往剩下的那99%的人的口袋里多放一分钱。也就是说,在普通美国人的生活陷入水深火热的同时,美国的人均收入依然能够节节攀升。

现在让我们回到那个更加重要的问题上来,谈谈美国中产阶级的经济健康状况。当然如果我们能够找到类似于击球率这样言简意赅的,甚至更好的经济衡量指标,那是最理想的,我们需要一个简单且准确的数字,来说明一个典型的美国工人最近几年的经济状况,那些我们称之为“中产阶级”的人到底是更富了、更穷了,还是在原地踏步?一个合理的答案——肯定不会有“正确”的答案——就是,计算一代美国人(大约为30年)的人均收入,观察其变化趋势。人均收入是一个简单的平均数:总收入除以人口数,这样得出的结果就是美国的人均年收入从1980年的7787美元上升到2010年的26487美元。你看,真是一个值得庆祝的成就!         但只有一个小问题,我的计算方法在技术上是正确的,但是对于我一开始提出的那个问题来说,却是完全错误的。首先,上面的数据没有考虑通货膨胀因素,1980年的7787美元相当于2010年的约19600美元。但仅进行通货膨胀因素的处理还不够,更大的问题是,我们需要知道的是普通美国人的收入,而不是泛泛的人均收入,这两者有本质上的区别。

在西雅图的一家中档酒吧的吧台前,坐着10个人,他们每年的平均收入都是3.5万美元,也就是说,这组人的人均年收入为3.5万美元。这时候,比尔•盖茨走进了这家酒吧,肩膀上立着一只会说话的鹦鹉(其实这只鹦鹉与这个事例一点儿关系都没有,之所以要提一下鹦鹉是想给这个案例增加点儿乐趣),假设他在这个案例中的年收入为10亿美元。当比尔·盖茨在吧台前的第11把発子上坐下后,这组人的平均年收入便迅速上升到了将近9100万美元。很显然,之前的那10个人丝毫没有变得更富有(尽管比尔•盖茨很有可能会帮他们付一两次酒账,但仅此而已)。如果我说吧台前的这群人平均年收入为9100万美元,这句话在数据上是正确的,但同时也相当具有误导性。这里不是一个亿万富翁会经常光顾的酒吧,只不过正好有一群收入不高的普通人坐在了比尔•盖茨和他的会说话的鹦鹉旁边。平均数必须对“异常值”有足够的敏感性,这也是为什么我们不应该用人均收入来衡量美国中产阶级的经济健康状况。因为在收入分配的顶端,有着一群收入暴涨的美国人——公司高管、对冲基金经理,以及像德瑞克•基特这样的运动员,普通美国人的收入会被这些巨富们的光环掩盖,就像一群失意的普通人坐在比尔·盖茨身边一样。         出于这个原因,我们还有一个数据可以用来表示分配的“中间位置”,但与平均数有所不同,这个中间位置就是中位数。中位数正好将一组数字一分为二,1/2位于中位数之前,另外1/2位于中位数之后(如果遇上一组数字的数量为偶数,那么中位数就是中间两个数的平均值)。回到刚刚酒吧的那个例子,原先坐在吧台前的10个人的年均收入中位数为3.5万美元,当比尔•盖茨和他的鹦鹉入座之后,这11个人的年收入中位数依然为3.5万美元。如果你将他们按照收入多少来排座的话,那么坐在第6把発子上的人的收入就代表了整组人收入的中位数。假如此时沃伦•巴菲特走了进来并坐在了比尔·盖茨的身边,他们的中位数还是不会改变。

无论是中位数还是平均数,要求出它们并不难,关键在于根据具体情况确定哪一个“中间位置”能够更准确地反映问题的实质。与此同时,中位数还有一些有用的“亲戚”,正如我们之前已经讨论过的,中位数将一组数据从中间分为两部分,这组数据其实还可以继续分为4部分,我们称之为“四分位数”。第一四分位数由处于底部的25%的数据构成,往后的25%的数据构成了第二四分位数,以此类推。同样的,收入分配数据还可以分为“十分位数”,每组包含10%的数据。如果你的收入属于美国人均收入分配顶层的那10%,那么这意味着你要比90%的美国人挣得都多。我们还可以细分下去,将收入数据分为100份,也就是“百分位数”,每个百分位数都代表1%的数据,也就是说,第一百分位数表示位于底部的1%的人的收入,第99百分位数代表收入分配数据中收入最高的那1%的人。

正态分布的“美”好比迈克尔·乔丹在球场上的力量、灵巧和优雅,它来自于一个事实,那就是我们通过定义就能够清楚地知道,有多少数值位于平均值一个标准差的范围之内(68.2%),有多少数值位于两个标准差的范围以内(95.4%),还有多少数值位于3个标准差的范围以内(99.7%),以此类推。

描述统计学经常会比较两个数据或数量。例如,我比我的哥哥高1英寸,今天的气温比历史平均值高9摄氏度等。这些比较之所以易于理解,是因为我们大部分人都对其中所包含的数量单位并不陌生。当形容身高时,1英寸并不是很多,因此你可以推测我和我的哥哥的身高看上去其实差不多;相反的,无论是在一年中的哪个季节哪个时刻,9摄氏度都是一个非常引人注目的温差,因此我们可以说那一天比平时要热很多。但如果我告诉你,某品牌麦片中A配方的钠含量要比B配方高31毫克,除非你恰好懂得很多关于钠的知识(以及该品牌麦片的食用分量),否则上面这句话并不能给你带来特别具体的信息。又或者我对你说,我的外甥阿尔在2013年比2012年少挣了5.3万美元,我是不是应该对他表示担心呢?阿尔也许是一位对冲基金经理,5.3万美元只不过是他年薪的一个零头。         在钠含量和收入这两个例子里,我们都缺少背景资料。赋予这些比较型数据意义的最简单的方法就是使用百分比。如果我跟你说,某品牌麦片A配方的钠含量比B配方高了50%,我的外甥阿尔在2013年的收入与2012年相比减少了47%,是不是就更容易理解了?用百分比来表示变化,可以让我们有一种用刻度测量的感觉

当连衣裙的价格为75美元时,新来的副经理将价格上调25%,这里就是许多人容易犯错的地方。上浮的25%参照的是连衣裙的新价格,而非最开始的价格,所以上涨的价格应该是25%x75美元=18.75美元,最后的售价为75美元+18.75美元=93.75美元(而不是很多人认为的100美元)。这个例子的关键在于,百分数变动表示的是某个数字相对于其他事物的变化值,因此我们最好先弄清楚其他事物到底是什么。

我曾投资过大学室友开的一家公司。由于这是一家私营公司,因此在向股东披露信息方面并没有什么硬性要求。转眼几年过去了,我的这笔投资的命运如何,我毫不知情,我的这位前室友对于这个话题也是只字不提。最后,我终于收到了一封信,信上说公司的利润相比前一年提高了46%。但到底提高了多少美元,信上没写,也就是说我还是完全不知道自己的投资到底表现如何。假设上一年公司赢利27美分——基本等同于没有,那么这一年公司的赢利就为39美分——还是基本等同于零,但就从27美分到39美分来说,公司的利润的确上涨了46%,这一点没有问题。如果告诉你公司两年的累计赢利还不够买一杯星巴克咖啡,那么收到这样的股东信件可真够晦气的。         但是,我的室友是这样的人吗?显然不是。他最终把公司卖掉了,换回了数亿美元的资金,我的那份投资的回报率也高达100%。但你还是不知道我最后赚了多少钱,因为我并没有告诉你我最初投了多少钱,这不是更加能证明我的观点吗?读到这里,你是不是对什么是“其他事物”有点儿感觉了?

首先,我们应该弄明白“精确”和“准确”这两个词之间至关重要的区别。这两个词不可以相互替代。“精确”反映的是我们描述事物的精度,比如在描述你从家到公司的距离时,“41.6英里”就比“大约40英里”更精确,当然比“相当长的一段路”更精确一些。如果你问我最近的加油站在哪里,我会告诉你往东1.265英里,这就是一个精确的回答。但问题也随之而来:如果加油站在西边,那么这样的一个回答就是完全不准确的。也就是说,如果我告诉你:驾车大约10分钟,当你看到一家热狗售卖摊点时,加油站就在你的车右前方几百码的地方,如果你经过猫头鹰餐厅,就说明你的车开过了。这样的一个回答虽然没有“往东1.265英里”那么精确,但显然更好,因为我为你指明了前往加油站的正确方向。一个数据的准确与否表明了其与真相是否一致,因此将“精确”和“准确”混为一谈是要付出代价的。如果一个答案是准确的,那么在这个基础上当然是越精确越好;但如果答案从一开始就是不准确的,那么再精确也毫无意义。

无论是平均数还是中位数,都是衡量一组数据的“中间位置”或“中心趋势”。平均数就是所有数据求和之后再除以个数(3、4、5、6、102的平均数是24)。中位数就是一组数据最中间的那个点,有一半数据位于这个点之前,有一半数据位于这个点之后(3、4、5、6、102的中位数是5)。现在,聪明的读者一定会注意到24和5之间存在着巨大的差异。所以,如果出于某种考虑,想要让这组数据在描述时显得数值大一些,那么我会选择求它们的平均数;但如果我想让数值看上去小一些,我肯定会将关注点放在中位数上。

中位数的决定性特征——不考虑数据距离中间位置有多远或是多近,而是关注它们是高于中间位置还是低于中间位置——反而成为它的弱点。与之相反,平均数恰恰是由数据分布决定的。从准确性的角度来看,平均数和中位数孰取孰舍,关键就在于这个数据分布里的异常值对事实的真相是起到扭曲的作用,还是其重要的组成部分。再次强调,判断比数学更重要。当然,没有人强制你一定得选中位数或平均数,任何一个复杂综合的数据分析都会包含这两个数据。所以,当只有其中一个数据出现的时候,你就要注意了,有可能只是出于言简意赅的考虑,但也有可能是某些人别有用心地想用数据“说服”你。

通货膨胀。今天的1美元和60年前的1美元的价值是不一样的:今天的1美元能买到的东西更少。由于通货膨胀的存在,1950年花1美元能买到的东西在2011年可能要花9.37美元。因此,在没有考虑通货膨胀因素的情况下,任何有关1950年与2011年的金钱比较都是不准确的,而且比欧元与英镑的比较更加离谱儿,因为欧元和英镑的价差比1950年的美元与2011年的美元的价差还小。

谈到学校的质量,这是一个必须予以衡量的关键问题,因为我们都希望奖励并效仿“好”学校,惩罚或整顿“差”学校(具体到学校内部,我们在衡量教师的教学水平问题上也面临类似的难题)。考核学校和教师最常用的方法就是看学生的考试分数,统考结束后,学生的优异成绩就是教师和学校最好的金字招牌;与之相反的,糟糕的成绩无疑会释放出一个清晰的信号:相关教师应该被辞退,而且越早辞退越好。这样看来,仅凭考试分数我们就能彻底改善公共教育系统了,对吗?         错。在评价教师和学校时,如果只看考试分数是会铸成大错的。不同学校的学生,他们的背景和能力是很不一样的,比如说,学生父母的教育程度和收入会对孩子的成绩产生不可忽视的影响,不论孩子上的是哪所学校。在这里,我们所缺少的那个数据恰好就是解答这个问题唯一需要的:学生的学业表现有好有差,但其中有多少比例要归功或归咎于学校(或所在的班级)呢?         从小就生活在衣食无忧、书香门第家庭里的孩子,一般来说从进入幼儿园的第一天起就有可能会比别的孩子的成绩好。相反的情况同样成立,有些学校的学生天资平平,虽然教师教得很好,但是学生的成绩还是处在一个低水平上,如果没有这些老师的付出,那些学生的成绩会更加惨不忍睹。

纽约州就因为类似的统计陷阱而栽了大跟头,付出了惨痛的代价。州政府之前出台了“记分卡”制度,对接受心脏搭桥手术的病人的死亡率进行统计,以便让公众在选择心脏科医生时有一个参考。这似乎是一个完全合情合理,而且有所帮助的描述统计学在政策制定过程中的应用。心脏搭桥手术是治疗心脏病最常用和有效的方法,心脏病人在搭桥手术过程中的死亡比例当然是一个非常重要的数据,而作为个人根本没有办法了解到确切数据,因此政府出面收集并向公众公开这一数据是合乎情理的。但就是这么一个“好”政策,却导致了更多病人的死亡。         心脏科医生肯定会在意他们的“记分卡”。但是对于一个外科医生来说,降低病人死亡率最简单的方法并不是降低病患死亡人数,因为大部分医生在救死扶伤方面已经竭尽全力了。降低死亡率最简单易行的方法是拒绝为那些病况最严重的病人动手术。罗彻斯特大学医学与牙医学院的一项调查表明,以服务病人为初衷的记分卡,到头来反而会给病人造成伤害:在参与调查的心脏科医生中,有83%的医生表示正是由于公开了死亡率数据,一些本来可以从搭桥手术中获益的病人最终没能被安排进行手术;79%的医生表示收集并公开死亡率数据或多或少地影响了他们的治疗决策。这一看似有用的描述性数据存在一个可悲的矛盾,而心脏科医生也只能理性地接受并釆取自己的对策,就是让那些最需要心脏搭桥的病人远离手术台

面对《美国新闻与世界报道》收集的所有数据,我们不知道这些排名到底是想给那些即将跨入大学校门的高中毕业生们哪方面的指导。站在学生的立场,最值得关注的方面应该是学业本身:如果我申请了这所大学,我能在学业上获得怎样的帮助?橄榄球迷聚在一起时经常会抱怨传球效绩指数的构成,但却没有人否认其组成部分——完成率、码数、触地得分和截球——同样是评估一名四分卫的整体表现不可或缺的重要参考。但回到大学排名上来,情况就完全不同了。《美国新闻与世界报道》过于强调“输人”(例如,录取了哪些学生、教职员工的薪资待遇、全职教授所占的比例等),反而忽略了教学“输出”,除了仅有的两个例外——新生留级率和毕业率,但实际上就连这两个指标也不是衡量教学质量的。正如迈克尔·麦弗逊所指出的:“从这份排名中,我们无从知晓进入某所大学经过4年的学习之后,学生的能力是否提高了,他们的知识是否增长了。”

例如,身高特别高或矮的人的体重一般也会特别重或轻)

找几个跟你有相同趣味的人并让他们向你推荐一些电影。既然你那么爱看我喜欢的电影,厌恶我认为不好看的电影,那么你觉得乔治•克鲁尼的新片怎么样?         这就是相关性的真谛。

概率并不是确定的。你不应该购买彩票,但你依然有可能通过购买彩票发财。是的,概率学能够帮助我们揪出作弊者、追踪大坏蛋,但若使用不当,我们就有可能把无辜的人送进监狱。

没有办法告诉你假如那1%的情况发生,事态会有多严重。很少有人会关注“尾部风险”(位于分布曲线末尾的小概率事件),以及这些小概率风险所带来的灾难性后果。(如果你从酒吧出来打算回家,虽然你的血液中酒精含量只有0.15,撞车死亡的概率还不到1%,但酒后驾车依然是一个不明智的决定。)更甚的是,许多公司还天真地以为自己对那些小概率风险已经作了充足的准备,这无疑是雪上加霜。美国财政部前部长鲍尔森解释说,许多公司觉得只要出售资产,就能在很短的时间内筹集到现金。但危急关头,几乎所有公司都需要现金,这些公司全都在想办法出售相同类型的资产,从风险管理的角度看,这就像一个人说:“有灾难降临?那也没必要事先储备净水,到时候只需要去超市买几瓶矿泉水就行了。”可是当小行星真的撞上了你所在的小镇,生活在这里的其他5万名居民也想着要去超市买水,那么等你赶到超市的时候你会发现,超市的玻璃已经被砸了,货架上什么东西都没有。

独立的事件浑然不觉,甚至还将它们作为相关事件进行处理。假设你正在一家赌场里(虽然从统计学的角度看,你根本就不应该出现在这种地方),你会看到赌客们红着眼睛盯着骰子或扑克牌,嘴里念念有词“总该轮到我赢了吧”。如果轮盘球已经连续5次停在黑色区域了,有人就会想当然地认为下一次肯定会停在红色区域,大错特错!轮盘球停在红色区域的概率一直都没变,应该是16/38,这就是“赌徒谬论”。事实上,就算你连续抛1000000次硬币,并且结果全都是正面朝上,第1000001次抛硬币出现反面的概率依然为1/2。两个事件的统计独立性的定义正是其中一个事件的结果对另一个事件的结果不存在任何影响。就算你觉得从统计学的角度来解释不够有说服力,你也可以从物理的角度问问自己:一枚硬币连续抛几次的结果都是反面朝上,怎么做才能使它下一次抛出的结果是正面朝上?

有91%的篮球迷认为,当球员连续两三次投篮成功后再次投中的概率要高于他连续投失两三次球后投篮命中的概率。这篇关于“手感”的论文告诉我们,人们脑海里的观念和事实往往存在差异,论文作者写道:“人们对于随机性的直观感受与概率的相关定律之间存在着鸿沟。”我们自认为看到了规律,可实际上或许根本不存在规律。

为了证明这一相同的论点,我还和我的学生进行过一个实验。班级的人数越多,效果越好。我让班上所有人都拿出一枚硬币,并从座位上站起来,我们一起抛硬币,硬币正面朝上的学生必须坐下。假设我们一开始有100位学生,在第一次抛硬币结束之后,有大约50人坐下;然后我们开始第二次抛硬币,之后还剩下约25位学生站着;然后是第三次、第四次……通常最后总是会剩下一位学生在连续5次或6次得到硬币反面朝上的结果后,依然站在那里,我会在这个时候走到这位同学的身边问他“你是怎么做到的?”、“你平时都做些什么特殊训练,可以连续这么多次都做到反面朝上?”、“你是不是吃了什么特别的东西?”等,这些问题惹得全班同学哈哈大笑,因为他们目睹了整个过程,他们知道这位抛硬币得到6次都是反面结果的同学并没有什么特殊的技能,一切只是巧合。但如果脱离了这样一个环境,当我们目睹一些异常的事件发生时,我们总是会想:“没那么巧吧?背后肯定有什么原因。”但事情偏偏就是这么巧。

同样的现象还可以用来解释为什么有些学生在考试中会超常发挥,有时候又会不尽如人意;有些学生明明考得没有平时好,但重考的成绩却又稍稍提升了。要解释这一回归现象,一种思路是学生的考试成绩(无论是文化课还是体育课)基本上是由个人的努力和运气(统计学家称之为“随机误差”)构成的。也就是说,那些在某次考试中超常发挥的学生只不过是交好运了,而那些考试成绩与平时相比大失水准的考生只是运气差了一些。当好运或厄运终于结束时(总有结束的那一天),随之而来的表现就会更加接近平均值。

从统计学教材中,你将会读到有关随机抽样法更为详细的介绍。民意调查和市场分析公司的员工更是不遗余力地投入了大量的时间来研究如何更为经济有效地抽取更有代表性的人口样本。到目前为止,你应该意识到了如下几个重要的点:(1)没有比代表性样本更有用的统计学工具了,统计学要是离了它,马上会黯然失色;(2)获得一个好样本比想象得难,(3)那些耸人听闻的夸张结论,其中有许多都是由于正确的统计方法被应用在了糟糕的样本上,但如果一开始统计方法就是错的,不管样本质量如何,都不会得到应有的结论;(4)样本容量很重要,而且容量越大越好。关于这一点,将会在接下来的章节中具体讲到,直觉可以告诉我们,样本容量越大,那些极端的变量对结果的影响就会越小(一碗汤要比一勺汤更能体现整锅汤的味道)。必须引起注意的是,如果人口组成本身存在问题,即所谓的“偏见”,那么无论样本容量有多大,都无法改变这一“偏见”情况。假设现在你要对美国总统的支持率作一个电话调查,假如你的调查对象只局限于华盛顿的居民,那么他们的意见会跟美国人民的意见有出人,无论你给1000人打电话,还是给10万人打电话,都无法解决这一基础性的问题。事实上,一个存在偏见的大容量样本甚至要比一个存在偏见的小容量样本更具有误导性,因为人们会因为前者包含的样本数量多而盲目“崇拜”其结论。

统计学无法确凿地证明任何东西。与之相反,统计推断的力量在于:先发现一些规律和结果,然后再利用概率来证明这些结果的背后最有可能的原因。

打赏支持我写出更多好文章,谢谢!
打赏作者
+

(^_^)打个赏喝个咖啡(^_^)

微信支付
支付宝支付
Posted on 2017-04-08 21:38  追梦子  阅读(2617)  评论(0编辑  收藏  举报