复习《统计思维——程序员数学之概率统计》笔记

"""

This file contains code for use with "Think Stats",
by Allen B. Downey, available from greenteapress.com

Copyright 2010 Allen B. Downey
License: GNU GPLv3 http://www.gnu.org/licenses/gpl.html

"""

补充资料:

    (1)精品课程《轻松学统计》;

    (2)

 

 

1. 数据

总体population、横截面研究cross-sectional study,周期cycle,纵向研究longtitudinal study,记录record,参与调查的人respondent、样本sample、有代表性representative、过度抽样oversampling、原始数据raw data、重编码recode、数据清洗data cleaning。

 1.1

数据的分组——相关分组处理方法。

 

1.2

变量数列

单项式数列

组距式数列

 

1.3 集中趋势

   计算平均数

   位置平均数

1.4离中趋势

 衡量平均数代表性的好坏;反映事物发展是否均衡,是否稳定;

1.5使用核密度估计方法计算一个样本(序列)所对应的符合该样本书记的适当平滑的PDF。

   
 

2. 分布—— 值及出现的次数——直方图histogram——每个值的频数frequency

描述变量的最佳方法之一是列出该变量在数据集中的值,以及每个值出现的次数。这种描述称为该变量的分布distribution。

 

 

    • 集中趋势central tendency——变量值是否集中在某个值的附近?

 

    • 众数mode——是否有多个聚集点?

 

    • 展布spread——变量的变化性如何?对值在分布中扩展规模的度量。

 

    • 尾部——当偏离众数时,其概率降低多块?

 

    • 离群值outlier——是否有远离众数的极端值?

 

汇总统计量summary statistic:针对一个群组进行统计。

  均值 、平均数

  方差variance、标准差standard deviation(又称为:均方差)。

 

效应量effect size:描述两个群组之间的差异。如,

(1)使用两个群组均值的差值描述两个群组之间的差值。

(2)将群组之间的差值与群组内的变化性进行比较——统计量Cohen's d。

 

正态分布normal distribution——钟形的理想化分布,也称为高斯分布。

均匀分布uniform distribution——所有值具有相同的分布。

 

临床显著clinically significant——在实践中有意义的结果,如群组之间的差异。

 page28——对图形中一部分数据进行放大,并转换数据,以强调种种区别。

page18——处理离群值的最佳方法依赖于“专业领域知识”和数据分析者打算对数据进行何种分析;

 

   
 

3. 概率质量函数PMF——适用于描述变量值数量较少的情况。随着值的数量增加,每个值对应的概率会变得越来越小,随机噪音的影响就会变大。

概率probability:是频数的分数表示。

概率质量函数probability mass function,PMP:将每个值映射到其概率。

   
 

 4. 累积分布函数CDF

 

4.1 解决PMF在变量值数量较大的局限:(1)数据分区;(2)累积分布函数。

 

4.2 百分位数

原始成绩,百分位秩——在标准化考试成绩中,百分位秩是比你成绩低(或相同)的人的比例。“位于第90百分位”说明你的成绩高于或等于90%参加考试的人。

(1)已知数据序列和特定值,计算该特定值的百分位秩;——排查一遍,将小于等于特定值的数据计数,计数值/总数;

(2)已知数据序列(长度n),求指定百分位秩x所对应的数据;——将数据序列按值从小到达排序,取第n*x/100位置的数据即可。——即取百分位数索引所对应的数据。

 

4.3累计分布函数cumulative distribution function,CDF——将一个值映射到整体的百分位秩。

                                                                                    ——描述“小于等于”的概率。

                                                                                   ——“分布函数”是“累计分布函数”的简称。

                                                                                   ——是概率密度函数的积分。

 

 

   
 

 5. 分布建模(可在学完第6章之后学习第5章)

经验分布——基于有限样本的经验观察得到的CDF。实际样本的累积分布函数CDF。

分析分布——采用某种数学函数表示样本数据的统计规律,是对数据建模的一种方法。

 

常用的分析分布:

 

5.1 指数分布——用于对现实世界中达到间隔测量数据建模。如果事件在任意时间发生的可能性相同,到达间隔的分布就会近似为一个指数函数。

    如,怀孕过程中,受精卵到婴儿出生——妊娠期不同,记录出生时间点得到婴儿出生时间数据集,将相邻出生时间间隔作为研究样本X,假设婴儿在一天中的任何时间出生的可能性相同,采用指数分布对CDF(X)进行建模,得到连续模型。尽管这种假设并不准确成立,使用指数分布对这个样本X进行建模是合理的,经过这种简化,我们用一个参数\lamda就可以概括这个分布。

       参数\lamda可以解释为一个比率,即在一个时间单元内发生的平均次数。在上述例子中,24小时内出生了44个婴儿,指数函数唯一参数\lamda等于每分钟0.0306个婴儿出生,指数分布的均值为1/\lamda,即表示婴儿出生时间间隔均值为32.7分钟。

   
 

 6. 概率密度函数 probability density function

6.1  CDF的导数称为概率密度函数PDF。

在物理学上,密度是单位体积的质量。密度乘以体积得到质量;

概率密度是在度量单位x的概率。

    如,身高的概率质量PMF图在130-190cm之间是一个类似钟形的阶梯函数(纵坐标为身高值对应的频次),

           身高的概率密度PDF图在130-190cm之间是一个类似中兴的平滑函数(纵坐标为密度),表示每cm的概率值.

概率密度自身并没有太多的含义。但是,如果绘制PDF图,可以看出这个分布的形状。

 

PMF代表一组离散值的概率。CDF表示累计概率;要从CDF得到PMF,需要计算累计概率之间的差值。

PDF是连续CDF的导数,CDF是PDF的积分;PDF将值映射到概率密度,要得到概率,必须进行积分运算。

 

6.2 离散型描述量PMF  —— 连续性描述量PDF

要从离散型分布得到连续性分布,需要采用多种平滑处理方法。

      平滑方法(1):假设数据来自一个连续的分析分布(如指数分布或正态分布),然后估计这个分布的参数;

      平衡方法(2):采用核密度估计方法。

核密度估计方法:已知一个样本序列,找到一个符合该样本数据的适当平滑的PDF。

                             为不存在的值估计概率密度;——插值

                             分布有离散型------>连续型

 

 

6.3 对实际样本的估计与验证

得到实际样本序列,进行数据分析探索,可以画出hist、pmf、cdf进行分析,如果初步判断符合高斯分布,可以通过通过对实际数据和猜测参数后模拟的数据分别得到对应的pdf,绘制它们的PDF图做比较。进一步可以比较研究点对应的概率密度。

 

实际数据sample的pdf计算与绘图:(研究时,实际数据也可以采用随机建模数据)

        sample_pdf = thinkstats2.EstimatedPdf(sample);  #核密度估计得到的概率密度函数

        thinkplot.Pdf(sample_pdf, label='Sample KDE')

 

探索阶段猜测的(逐步调整细化)参数:mean, var

依据参数获取模拟数据计算其pdf并绘图:

        mean, var = 163,52.8

                             std = math.sqrt(var)

                             pdf =  thinkstats2.NormalPdf(mean, std)

        thinkplot.Pdf(pdf, label='normal')

        #可计算pdf.Density(mean + std)得到0.0333001,表明对于模拟的建模身高数据,每cm的概率值为0.0333001.

        #已知pdf可以模拟得到对应的pmf = pdf.MakePmf();

 

6.4 研究工具thinkstats2的介绍

thinkstats2中提供了各种基本类型如Hist, Pmf, Cdf, Pdf.它们有自己的属性和方法。

 

6.5 统计量

均值、方差、中位数、四分位

新的统计量1:矩

        (1)原始距;k=1时为均值;(2)中心矩; k=2时为方差

新的统计量2:偏度skewness——描述分布形状的一个量。

                      如果分布是以集中趋势为中心对称的,称这个分布是非偏斜的(unskewed);

                      如果分布中的值向右延申的更多,那么这个分布就是右偏(right skewed).

         样本偏度g1没有单位其值的大小用于比较,本身很难解读。为负值时代表分布左偏,为正值时代表分布右偏。

         实际应用中,分布中任何离群值都会对g1产生不同程度的影响,计算偏度并非好注意。

         衡量分布对称性通常采用Pearson中位数偏度系数Pearson's median skewness coefficient——基于样本均值和中位数差的一种偏度度量。这个统计量是稳健的(robust)。

   
 

 7. 变量之间的关系

如果从一个变量的信息中得到另一个变量的信息,那么这两个变量就是相关的。

 

7.1 散点图——对变量关系有一个大体的了解

数据抖动(抖动的数据通常只应用于视觉效果,使得变量关系的形状更加清晰,应避免在分析时使用经过抖动的数据)。

显示时设置透明度、或直接绘制hexbin图。

 

7.2 描述关系特征

其他可视化方法可以让我们更加深入地了解变量关系的本质。

一种方法是对一个变量进行分区,绘制另一个变量的百分位数。

 

 7.3 相关性

新的统计量3:相关性

 相关性是一个统计量,用于量化两个变量之间关系的强弱;

度量两个量的相关性是困难的。因为,需要比较的变量通常使用不同的单位。即便变量使用相同的单位,也可能来自不同的分布。解决方法:

(1)将每个值都转换为标准分数(standard score),即期偏离均值的标准差。——Pearson乘积矩相关系数。

(2)将每个值都转为为秩,即其在的所有值的排序列表的索引。这种转换后计算相关性 ——Spearman秩相关系数。

 

以上两个相关系数都会调用到协方差计算公式Cov

 

Pearson相关系数计算公式:Corr(xs, ys);取值\rou介于-1~+1之间的。正数表示正相关,负数表示负相关。1或-1表示完全相关。

系数值的大小表明了相关性的强弱程度。

Spearman秩相关系数计算公式:SpearmanCorr(xs, ys). 能够缓解离群值以及偏斜分布的影响。

 

相关性并不意味着因果关系。回归分析regression analysis用来推导因果关系。

 

检验相关性是否“统计显著”——即多次计算相关性,得到的相关性值始终稳定在一个很小的范围内。

 

   
 

 对数据的研究——抽样

1.随机抽样

(1)简单随机抽样

  ——依据0-1分布的均匀分布CDF函数中选择p,让后得到的CDF的反函数得到x=ICDF(p).

(2)分层随机抽样

举例:某单位调查身体状况,整体员工500人抽取100人进行访问。采取分层随机抽样反映整体员工的结构。

 (3)整群抽样

 (4)系统抽样(等距抽样)

 

 

 

 

   
   
   

参数估计

  对总体数据整体进行统计——描述统计方法
 

总体指标(总体未知参数)不可得或不好计算

样本指标(样本统计量)

依据样本统计量 推测 总体参数

 

   

 

 

   

 

posted on 2024-05-07 17:03  海阔凭鱼跃越  阅读(2)  评论(0编辑  收藏  举报