统计学 | 漫想

2019年03月15日

这两天MBBS监考，为了克服无聊，在监考期间开始了踱步漫想，整理脑中的碎片知识，再次深刻理解了孔夫子的那句话：学而不思则罔，思而不学则殆。

大学硕士博士期间都学过统计，但总感觉统计十分陌生，自认为根本就不理解统计的精髓，一旦到了应用时，心理就犯怯。理解不深主要是学和思都不够。

这里还是要吐槽大学里的教育，大部分都叫做填鸭，算不上是教育，教育的要义是启发。

要是我是讲师，我绝不会把课本直接搬上PPT，教材是知识的提炼精简和浓缩，初学者根本得不到任何启发和激励，强行填鸭只会让学生彻底失去兴趣。我讲课的话，一定首先用常识俗话来把学生带入学科的殿堂，这门学科是为什么而产生的，是如何一步一步在问题中发展的，出现了哪些经典的解决问题的办法，哪些nb的人做了哪些nb的贡献（这会耗费讲者大量的时间和精力，这也就是为什么好的教育是昂贵的稀缺资源）。在学生兴趣来了，听过瘾了后，再以课本上的术语规范学生的思想，只有这样课本上的那些精华术语才有了血肉，受到启发的学生才会自主的去开拓，坚持学习，这才叫站在巨人的肩膀上了。

教材上的任何一个概念都不是多余的，它们都是在某个背景下为了解决某个问题而提出的。正确的逻辑是：基本的世界观 - 发现了问题 - 解决问题 - 改进方法 - 新思路革新世界观，如此循环。

以下的漫想肯定不严谨，但却是我的真实的头脑风暴，权当娱乐，如对其他人有些许启发那就更好了。

基本的世界观：

我是个执着的人，什么都喜欢往“底层”思考，世界的本源是什么？霍金在研究，奇点，大爆炸，再坍缩到奇点，刘慈欣也在思考，大家都在思考，但似乎还没有什么明确的答案。

茫茫宇宙出现了生命和人类（智能），智能足够了，才能推进文明持续发展，但显然人类不像造物主那么万能，我们的智能是受限的智能。

（统计，变量，常量，分布，假设检验，机器学习。。。）

统计离不开分布，分布是用于描述变量的，什么是变量，什么是常量？（这不是废话吗，这不是常识吗？奈何我不满足，非要往底层问）

我是这么理解的，变量和常量在宇宙中本不存在，是人类创造出来的。世界上没有两片相同的叶子，更极端的世界上不存在两个相同的原子，因为电子状态不同。但人类的基本思维是归类（启发：抽象继承封装多态，面向对象编程的基本思路）。

人类习惯把身边的具有相似属性的东西归类，地球、太阳、火星是完全不同的东西，八竿子打不着，但在人类地思维里被抽象为了星球，它们就都有了属性：半径。

所以，变量就是我们抽象出的类的属性，类是模板，类地实例就是一个个对象，所以变量在每一个对象中有一个不同的值，它一直在变所以叫变量。常量就是固定不变的变量，就是一个特例而已，比如地球的G值，因为经常用所以就需要记录下常量。（再强调一遍，造物主不需要变量，因为全知全能）

有变量就来谈分布，举例：地球上的人的身高这个变量就符合正态分布，类是人，对象是地球上的所有人，变量是身高。分布可以是直方分布图（计数），可以是概率密度函数，还可以是CDF累计密度函数。

分布的本质是人类经验的总结，在已知数据中发现的规律。正态分布是最重要的一个。为什么正态分布在宇宙中如此普遍存在呢？这是个哲学问题，很多人讨论，我也就只想到了高尔顿的“向平均回归”。

变量有许多描述的特征，平均值和方差最常见，方差是描述类属性的变动的，标准化后就是标准差（还有个标准误，不要混淆）。

统计的底层思维是概率，概率分布和假设检验都是基于概率的。

统计的本质是什么？为什么我们要造出统计这个东西？我认为统计和机器学习都是为了人类进行预测和决策的。人类在观察中得到了数据，发现了规律，自然就像预测，来辅助自己的决策。

概率的本质是什么？概率就是量化人类所处的未来的不确定性的，我们都在时间的长河中，没有剧本，一个对象的行为具有不确定性（行为的结果就是事件），我们反感不确定性，所以用概率加以量化。

假设检验的起源

经常，我们会要比较两组数据有没有差异，以此做出决策。

如果我们是Fisher时代的人，还不知道假设检验，我们会怎么做？我们已经会计算mean和variance了，知道有分布这个东西。直觉地，我们会发现差异取决于一个“阈值”，这个阈值会像一把刀把有差异和没差异分开。我们可以把两组数据标准化成标准正态分布，然后比较两个正态曲线交叉的面积，设定95%的overlap为相同。如果不符合正态这方法就歇菜了，而且这个方法太死板，太静态。

Fisher的设计就厉害了，做生物的就是不一样，明确知道重复的意义，所以引进了“小概率事件”，大量重复实验中发生概率小于5%（or 1%）的时间叫做小概率事件，我们可以认为，通常在这个阈值下认为小概率事件不会发生。

又引入了数学的证明体系，我们做一个假设（假设要包含足够的信息，证伪是需要用到），基于假设我们会推理出我们数据出现得概率，如果这个p-value小于0.05，数据是小概率事件，可以认为基本不会发生，所以假设就是假的。

丢硬币判断均匀与否的例子最直观，假设均匀，那就是p=0.5的二项分布，直接根据抛的次数来判断我们抛出来的是否是小概率事件。

另外最经典的z-test就出现了，假设样本服从正态分布（不服从就必须引入抽样分布），我们构建一个mean(X1-X2)的统计量（做了些许的推广），它也服从正态分布，在H0假设下，我们可以明确知道这个分布（均值和方差都已知），然后再计算真实的mean(X1-X2)，看是不是在样本正态曲线的极端值。

CI置信区间也好理解，根据p-value我们结果是yes or no，如果我想知道样本值落在什么区间才算显著呢（可以重复利用）？于是统计量的区间就来了，正态分布的95%区间很好算。

聊假设检验就离不开抽样分布和中心极限定理。

要做上面的分析，基本假设前提是样本服从正态分布，而且样本量要足够大。那么小样本的，总体不是正态分布的怎么做呢？

抽样分布就是从总体中抽N个样本，看样本的统计量服从什么分布。样本的标准误se这个概念非常重要。

中心极限定理发现：多次抽样后，样本的均值这个统计量服从正态分布，不收抽样总体分布的影响，可以根据sample size算出这个具体的分布。

之后就是假设检验的拓展了，类别型的、单样本、双样本和多样本，核心原理理解了再去看具体方法就简单多了。每一个检验又有多个对应的统计分布检验，大致分为有参和无参两类。细节问题我会在另外一个帖子做专题总结。

待续~

posted @ 2019-03-15 14:56 Life·Intelligence 阅读(307) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Digital-LI

统计学 | 漫想

基本的世界观：