概率学习2（2024-5-7）

复习《统计思维——程序员数学之概率统计》笔记

"""

This file contains code for use with "Think Stats",
by Allen B. Downey, available from greenteapress.com

Copyright 2010 Allen B. Downey
License: GNU GPLv3 http://www.gnu.org/licenses/gpl.html

"""

补充资料：

（1）精品课程《轻松学统计》；

（2）

	1. 数据总体population、横截面研究cross-sectional study，周期cycle，纵向研究longtitudinal study，记录record，参与调查的人respondent、样本sample、有代表性representative、过度抽样oversampling、原始数据raw data、重编码recode、数据清洗data cleaning。 1.1 数据的分组——相关分组处理方法。 1.2 变量数列单项式数列组距式数列 1.3 集中趋势　　计算平均数　　位置平均数 1.4离中趋势衡量平均数代表性的好坏；反映事物发展是否均衡，是否稳定； 1.5使用核密度估计方法计算一个样本（序列）所对应的符合该样本书记的适当平滑的PDF。

	2. 分布—— 值及出现的次数——直方图histogram——每个值的频数frequency 描述变量的最佳方法之一是列出该变量在数据集中的值，以及每个值出现的次数。这种描述称为该变量的分布distribution。集中趋势central tendency——变量值是否集中在某个值的附近？众数mode——是否有多个聚集点？展布spread——变量的变化性如何？对值在分布中扩展规模的度量。尾部——当偏离众数时，其概率降低多块？离群值outlier——是否有远离众数的极端值？汇总统计量summary statistic：针对一个群组进行统计。　　均值、平均数　　方差variance、标准差standard deviation（又称为：均方差）。效应量effect size：描述两个群组之间的差异。如，（1）使用两个群组均值的差值描述两个群组之间的差值。（2）将群组之间的差值与群组内的变化性进行比较——统计量Cohen's d。正态分布normal distribution——钟形的理想化分布，也称为高斯分布。均匀分布uniform distribution——所有值具有相同的分布。临床显著clinically significant——在实践中有意义的结果，如群组之间的差异。 page28——对图形中一部分数据进行放大，并转换数据，以强调种种区别。 page18——处理离群值的最佳方法依赖于“专业领域知识”和数据分析者打算对数据进行何种分析；

	3. 概率质量函数PMF——适用于描述变量值数量较少的情况。随着值的数量增加，每个值对应的概率会变得越来越小，随机噪音的影响就会变大。概率probability：是频数的分数表示。概率质量函数probability mass function，PMP：将每个值映射到其概率。

	4. 累积分布函数CDF 4.1 解决PMF在变量值数量较大的局限：（1）数据分区；（2）累积分布函数。 4.2 百分位数原始成绩，百分位秩——在标准化考试成绩中，百分位秩是比你成绩低（或相同）的人的比例。“位于第90百分位”说明你的成绩高于或等于90%参加考试的人。（1）已知数据序列和特定值，计算该特定值的百分位秩；——排查一遍，将小于等于特定值的数据计数，计数值/总数；（2）已知数据序列（长度n），求指定百分位秩x所对应的数据；——将数据序列按值从小到达排序，取第nx/100位置的数据即可。——即取百分位数索引*所对应的数据。 4.3累计分布函数cumulative distribution function,CDF——将一个值映射到整体的百分位秩。 ——描述“小于等于”的概率。 ——“分布函数”是“累计分布函数”的简称。 ——是概率密度函数的积分。

	5. 分布建模（可在学完第6章之后学习第5章）经验分布——基于有限样本的经验观察得到的CDF。实际样本的累积分布函数CDF。分析分布——采用某种数学函数表示样本数据的统计规律，是对数据建模的一种方法。常用的分析分布： 5.1 指数分布——用于对现实世界中达到间隔测量数据建模。如果事件在任意时间发生的可能性相同，到达间隔的分布就会近似为一个指数函数。如，怀孕过程中，受精卵到婴儿出生——妊娠期不同，记录出生时间点得到婴儿出生时间数据集，将相邻出生时间间隔作为研究样本X，假设婴儿在一天中的任何时间出生的可能性相同，采用指数分布对CDF（X）进行建模，得到连续模型。尽管这种假设并不准确成立，使用指数分布对这个样本X进行建模是合理的，经过这种简化，我们用一个参数\lamda就可以概括这个分布。参数\lamda可以解释为一个比率，即在一个时间单元内发生的平均次数。在上述例子中，24小时内出生了44个婴儿，指数函数唯一参数\lamda等于每分钟0.0306个婴儿出生，指数分布的均值为1/\lamda,即表示婴儿出生时间间隔均值为32.7分钟。

	6. 概率密度函数 probability density function 6.1 CDF的导数称为概率密度函数PDF。在物理学上，密度是单位体积的质量。密度乘以体积得到质量；概率密度是在度量单位x的概率。如，身高的概率质量PMF图在130-190cm之间是一个类似钟形的阶梯函数（纵坐标为身高值对应的频次），身高的概率密度PDF图在130-190cm之间是一个类似中兴的平滑函数（纵坐标为密度），表示每cm的概率值. 概率密度自身并没有太多的含义。但是，如果绘制PDF图，可以看出这个分布的形状。 PMF代表一组离散值的概率。CDF表示累计概率；要从CDF得到PMF，需要计算累计概率之间的差值。 PDF是连续CDF的导数，CDF是PDF的积分；PDF将值映射到概率密度，要得到概率，必须进行积分运算。 6.2 离散型描述量PMF —— 连续性描述量PDF 要从离散型分布得到连续性分布，需要采用多种平滑处理方法。平滑方法（1）：假设数据来自一个连续的分析分布（如指数分布或正态分布），然后估计这个分布的参数；平衡方法（2）：采用核密度估计方法。核密度估计方法：已知一个样本序列，找到一个符合该样本数据的适当平滑的PDF。为不存在的值估计概率密度；——插值分布有离散型------>连续型 6.3 对实际样本的估计与验证得到实际样本序列，进行数据分析探索，可以画出hist、pmf、cdf进行分析，如果初步判断符合高斯分布，可以通过通过对实际数据和猜测参数后模拟的数据分别得到对应的pdf，绘制它们的PDF图做比较。进一步可以比较研究点对应的概率密度。实际数据sample的pdf计算与绘图：(研究时，实际数据也可以采用随机建模数据) 　　　　　　　　sample_pdf = thinkstats2.EstimatedPdf(sample); #核密度估计得到的概率密度函数　　　　　　　　thinkplot.Pdf(sample_pdf, label='Sample KDE') 探索阶段猜测的（逐步调整细化）参数：mean, var 依据参数获取模拟数据计算其pdf并绘图：　　　　　　　　mean， var = 163，52.8 std = math.sqrt(var) pdf = thinkstats2.NormalPdf(mean, std) 　　　　　　　　thinkplot.Pdf(pdf, label='normal') 　　　　　　　　#可计算pdf.Density(mean + std)得到0.0333001，表明对于模拟的建模身高数据，每cm的概率值为0.0333001. 　　　　　　　　#已知pdf可以模拟得到对应的pmf = pdf.MakePmf(); 6.4 研究工具thinkstats2的介绍 thinkstats2中提供了各种基本类型如Hist, Pmf, Cdf, Pdf.它们有自己的属性和方法。 6.5 统计量均值、方差、中位数、四分位新的统计量1：矩　　　　　　　　（1）原始距；k=1时为均值；（2）中心矩； k=2时为方差新的统计量2：偏度skewness——描述分布形状的一个量。如果分布是以集中趋势为中心对称的，称这个分布是非偏斜的（unskewed）; 如果分布中的值向右延申的更多，那么这个分布就是右偏（right skewed）. 样本偏度g1没有单位其值的大小用于比较，本身很难解读。为负值时代表分布左偏，为正值时代表分布右偏。实际应用中，分布中任何离群值都会对g1产生不同程度的影响，计算偏度并非好注意。衡量分布对称性通常采用Pearson中位数偏度系数Pearson's median skewness coefficient——基于样本均值和中位数差的一种偏度度量。这个统计量是稳健的（robust）。

	7. 变量之间的关系如果从一个变量的信息中得到另一个变量的信息，那么这两个变量就是相关的。 7.1 散点图——对变量关系有一个大体的了解数据抖动（抖动的数据通常只应用于视觉效果，使得变量关系的形状更加清晰，应避免在分析时使用经过抖动的数据）。显示时设置透明度、或直接绘制hexbin图。 7.2 描述关系特征其他可视化方法可以让我们更加深入地了解变量关系的本质。一种方法是对一个变量进行分区，绘制另一个变量的百分位数。 7.3 相关性新的统计量3：相关性相关性是一个统计量，用于量化两个变量之间关系的强弱；度量两个量的相关性是困难的。因为，需要比较的变量通常使用不同的单位。即便变量使用相同的单位，也可能来自不同的分布。解决方法：（1）将每个值都转换为标准分数（standard score）,即期偏离均值的标准差。——Pearson乘积矩相关系数。（2）将每个值都转为为秩，即其在的所有值的排序列表的索引。这种转换后计算相关性 ——Spearman秩相关系数。以上两个相关系数都会调用到协方差计算公式Cov。 Pearson相关系数计算公式：Corr(xs, ys)；取值\rou介于-1~+1之间的。正数表示正相关，负数表示负相关。1或-1表示完全相关。系数值的大小表明了相关性的强弱程度。 Spearman秩相关系数计算公式：SpearmanCorr(xs, ys). 能够缓解离群值以及偏斜分布的影响。相关性并不意味着因果关系。回归分析regression analysis用来推导因果关系。检验相关性是否“统计显著”——即多次计算相关性，得到的相关性值始终稳定在一个很小的范围内。

	对数据的研究——抽样 1.随机抽样（1）简单随机抽样　　——依据0-1分布的均匀分布CDF函数中选择p，让后得到的CDF的反函数得到x=ICDF(p). （2）分层随机抽样举例：某单位调查身体状况，整体员工500人抽取100人进行访问。采取分层随机抽样反映整体员工的结构。（3）整群抽样（4）系统抽样（等距抽样）

参数估计

	对总体数据整体进行统计——描述统计方法
	总体指标（总体未知参数）不可得或不好计算样本指标（样本统计量）依据样本统计量推测总体参数

posted on 2024-05-07 17:03 海阔凭鱼跃越阅读(2) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

公告