统计学从数据到结论阅读笔记
第一章 一些基本概念
1.1 统计是什么?
统计是一门科学,以现实世界待解决的问题为目标;
统计学的假说或理论通常称为模型,统计学是“收集、分析、展示和解释数据的科学”;
统计学模型仅仅是对现实的近似,没有任何模型是“正确”的;
能否解决实际问题是评价统计方法的最终标准。
1.2 现实中的随机性和规律性,概率和机会
个例充满随机性,个例组成群体具有规律性(即统计规律);
概率在0-1之间,说明某件事情发生的机会有多大。
1.3 变量和数据
常数/常量:固定的数目,例如一个班有多少人;
变量:不确定数目,例如明天来上课的人数;
随机变量/定量变量/数量变量:变量按照所取的值是数量时;
定性变量/属性变量/分类变量:性别或观点之类的取非数量值的变量;(定性变量只有用数量描述时才能建立数学模型,使用计算机分析)
数据:数据是关于变量的观测值
1.4 变量之间的关系
1.4.1定量变量之间的关系
例如:广告投入和销售之间的关系(散点图来描述)
1. 这两个变量之间是否有关系?
2. 如果有关系,它们的关系是否显著?
3. 这些关系是什么关系?是否可以用数学模型来描述?
4. 这个关系是否带有普遍性,还是某个企业、某段时间特有的
5. 这个关系是不是因果关系?(这个问题可能永远不能准确地回答)
根据实际情况,提出相应的针对性问题
1.4.2 定性变量之间的关系
你的年龄分三个阶段,学历三个程度,是否想跳槽三个想法


1.4.3 定性和定量变量间的混合关系
例如:出生婴儿数据
定量变量:初生婴儿重量、母亲年龄、怀孕前母亲重量、母亲小产次数等整数
定性变量:婴儿是否过重、母亲是否吸烟、母亲是否有高血压、母亲是否有子宫过敏等
1.5 统计、计算机与统计软件(本书案例基于R软件实现)
第二章 数据的收集
2.1 数据是怎样得到的?
二手数据:报纸电视网页等得到的就业率、高速公路通车里程、物价指数、股票行情、外汇牌价、犯罪率、房价、流行病等有关数据。
一手数据:产品在市场中的状况和地位并确定其竞争对手的态势;调查不同地区、不同阶层的民众对其产品的认知程度和购买意愿,以改进产品或推出新产品以争取新客户;收集各地方经济交通等信息,决定如何保住现有市场和开发新市场;市场数据是企业生存必须的。
观测数据:在自然的未被控制的条件下观测到的。(例如上述数据)
试验数据:人工干预和操作情况下收集的数据。(例如不同医疗手段下治疗疾病的效果)
2.2 个体、总体和样本
例如:了解北京市民对建设交通设施是以公共交通工具为主还是以小汽车为主的观点
对象:单个北京市民
个体:单个北京市民的观点
总体/有限总体:所有北京市民对此问题的观点
样本:调查时问到的部分市民观点
普查:调查所有的人
简单随机抽样:总体中每一个个体都有同等机会被选到样本中;这样得到的样本称为随机样本
方便样本:只有部分特定群体观点被收集到,不是随机的。
2.3 收集数据时的误差
抽样误差:样本特征不一定和总体完全一样,这种差异必然会出现;
未响应误差:抽样调查中,一些人没有对调查做出反应或回答;
响应误差:一些人因为各种原因回答时并没有真实的反应他们的观点。
设计调查方案时,未响应误差和响应误差应该尽量避免。
2.4 抽样调查和一些常用的方法
抽样调查:如何用有效的方式得到样本数据(邮件报纸网络、电话调查、面对面调查等)
确保样本对总体的代表性,以保证后继推断的可靠性
抽样调查最理想的样本是简单随机样本,但实践难度大。
概率抽样方法:
1. 系统抽样:n个名字选择方法,例如开始为4,n = 10,依次为4,14,24......,如果编号是随即取的,则和简单随机抽样等价;
2. 分层抽样:将要研究的总体分成相对相似或相对其次的个体组成的类,再在各个类中分别抽取简单随机样本,结果汇总,对总体进行推断,不同类可以加权重。
3. 整群抽样:先把总体划分为若干群(不相似或异类个体组成),主要应用于区域抽样;在单级整群抽样中(先从这些群中抽取几群,然后再在这些抽取的群中对个体进行全面调查),在两级整群抽样中(先随机从这些群中抽取几群,然后再在这些抽取的群中对个体做简单随机抽样)
4. 多级抽样:子群套子群,最后对选定的最下面一级进行调查。
分概率抽样:
1. 目的抽样:研究人员主观的选择对象,样本多少依赖于预先就有的知识
2. 方便抽样:用于探索性研究,以较少的花费得到对客观情况的近似,常用于初期评估。(例如选择不同时间和景点对愿意停下的游客进行调查)此方法并不是随机
3. 判断抽样:研究人员凭经验选择样本,通常是方便抽样的延伸
4. 定额抽样:与概率抽样中的分层抽样类似,先确定各类及比例,然后利用方便抽样或判断抽样从每一类中按比例选取所需个体数
5. 雪球抽样:用与感兴趣的样本特征较稀有的情况下,依赖于一个目标推荐另一个目标的方法
6. 自我选择:让个体自愿参加调查,例如疾病防治调查
2.5 计算机中常用的数据形式
数据是由一些变量和它们的观测值组成,列为特征、行为数据样本
做分析时,尽量使用原始数据,汇总加工过的数据信息损失很大,一般只能作为最终展示结果,而不宜作为原始材料来做数据分析(高维表汇总来的低维表不能还原成原始数据)
第三章 数据的描述
3.1 如何用图来表示数据?
3.1.1 定量变量的图表示:直方图、盒形图、茎叶图和散点图
1. 直方图:把横轴分成若干等宽的区间,计算数据在各个区间上的频数,纵坐标可以是频数也可以是比例。
2. 盒形图/箱图/箱线图/盒子图:中间粗横线是数据的中位数,盒子上下两边为四分位数,盒子上下两边各有一条纵向线段表示盒子外点的分布,线段顶端横线表示最大值或最小值。
3.茎叶图:既展示了分布状况又有原始数据。早期产物
4. 散点图:描述两个(甚至多个)数量变量之间的关系
3.1.2 定性变量的图表示:饼图和条形图
定性变量(或属性变量,分类变量)不能直接点出直方图、散点图或茎叶图,但可以用图来描绘出它们各类的数目或者其他数量特征的比例
1. 饼图:许多扇形组成的圆,各个扇形的大小比例等于变量各个水平(类)的频数或相关数量变量的比例。
2. 条形图:同一计量单位拥有具体数目
3.1.3 其他图描述法
1. Chernoff 面孔图和星图(雷达图)
2. Lorenz 曲线:横坐标为从最低收入到最高收入人口的累积比例(0%-100%),纵坐标为人们挣得的收入从最低到最高的累积份额(0%-100%)。如果人们收入全一样,Lorenz曲线为45°直线,如果向下凸的曲线,该曲线和45°对角线之间面积越大,收入越不平等;Gini系数为该面积和整个三角形面积之比。
3.2 如何用少量数字来概括数据?
统计量来描述定量变量的数据,样本的随机性决定了统计量的随机性(平均数、差距、百分比、标准差等)
3.2.1 数据的”位置“
位置统计量:与位置有关的统计量,例如哪个地方穷,哪个地方富等
样本均值 =
受极大极小值影响较大
样本中位数:数据从小到大排列位于中间的那个数或者中间两个数的平均值。
k百分位数/a分位数:中位数是50百分位数或者0.5分位数
众数:样本中出现最多的某一数目
3.2.2 数据的”尺度“
尺度统计量:描述数据散布,即描述集中与分散程度或变化的度量。数据越分散,尺度统计量的值越大。
极差:极大值和极小值之间的差
四分位数极差/四分位间距:箱型图上下两个四分位数之差。(描述中间半数观测值的散布情况)
样本标准差:样本中各个数值到均值的距离的一种平均,标准差越大,数据中的观测值就越分散
样本方差:
样本标准差:![]()
正态分布:正态分布数据是单峰对称的(直方图中只有一个最高点的数据被称为单峰,如果左右对称,则是单峰对称数据),均值左右一个标准差的范围应该会包含大约68%的观测值,而均值左右两个标准差的范围应该会包含大约95%的观测值,均值左右三个标准差范围应该会包含大约99.7%的观测值。
标准误差/均值的标准误差:许多不同样本的均值的标准差(来自同意总体,相同样本量不同样本均值不同) 标准误差定义为标准差除以样本量的平方根= s/n2/1
3.2.3 数据的标准得分
标准得分:某样本原始观测值和该样本均值之差除以该样本的标准差
不同样本数据标准化比较的前提是背景相似(例如两个同样富裕的国家,两个成绩水平类似的班级)
第四章 机会的度量:概率和分布
概率:0-1之间,某个事件发生的可能性。
小概率事件:发生概率很小的事件
4.1 得到概率的几种途径
利用等可能事件:骰子1-6、硬币两面、扑克花色(事先知道分子分母)
根据长期相对频数:
相对频数/频率:事件出现的次数k除以重复实验的次数n(n越大越接近想得到的概率)
主观概率:一次事件的概率,无法通过等可能性和试验得到(例如某人明年去大连旅游的概率)
4.2 概率的运算
互补事件的概率:
互补/互余/对立事件:两者概率和为1,事件A,事件A的余集/补集:P(A)+P(AC) = 1
优势:赌博赢的概率P(A) = 0.6,优势为0.6/(1-0.6)= 6/4,你有6对4的优势会赢,或4对6的优势会输。
概率的加法:如果两个事件不可能同时发生,那么至少其中之一发生的概率为这两个事件的概率和。![]()
互不相容事件:A和B交集为空![]()
概率的乘法:两个事件独立时才成立, P(A n B) = P(A)P(B)
条件概率:事件不独立引进;
例如三个人抽签只有一个人可以抽中,一个人抽中的概率P(A1)= P(A2) = P(A3)=1/3,
两个人同时抽中的概率
,
A1抽到后A2和A3抽到的概率为0 P(A2|A1) = P(A3|A1) = 0
A1没有抽到,其他两人抽到概率为1/2 P(A2|A1C) = P(A3|A1C) = 1/2
贝叶斯公式:一个事件B已经发生的情况下,事件A发生的条件概率![]()
4.3 变量的分布
概率分布:随机变量取一切可能值或范围的概率或概率的规律,概率分布可以推出总体/样本空间
4.3.1 离散随机变量的分布:
,(骰子的点数、次品的个数)
1. 二项分布
伯努利试验:类似于抛硬币仅有两种结果的重复独立试验(买或不买、支持或不支持)
二项分布 B(n,p)/Bin(n,p) :进行n次Bernoulli试验,每次成功的概率为p;二项分布B(n,p)的总体均值为np,方差为np(1-p),标准差为![]()
进行n次Bernoulli试验,每次成功的概率为p,成功k次的概率:
2. 多项分布
多项分布:在每次实验中有多种可能结果,例如对五个品牌选择概率 M(n;p1,p2,p3,p4,p5)
在n次试验中选择5个品牌人数分别为m1,m2,m3,m4,m5的概率,m1+m2+m3+m4+m5 = n
3. Poisson分布/泊松分布/普阿松分布:衡量某种事件在一定期间出现数目的概率
(
)
4. 超几何分布:有限总体不放回抽样密切相关
例如:假定有500个产品,其中次品5个,质检随机抽查20个,如果20个产品中有2个以上不合格品,那么此批产品将被退回,该批产品被退回的概率是多少?

4.3.2 连续随机变量分布
连续变量:变量取连续值,如高度、长度、重量、时间、距离等
连续型概率分布:一个随机变量在一个区间内取任何值,则称之为在此区间内的连续随机变量,其分布为连续型概率分布,(不能使用条形图,可使用直方图)
概率密度函数/密度函数/密度:直方图高度和为1,不断增加观测值并不断增加直方图的矩形条数目,这些直方图就会越来越像一条光滑曲线

连续函数在一个点的积分为0,对于连续变量,取某个特定值的概率都是0,只有变量取值于某个区间的概率才能大于0,连续变量密度函数曲线下面覆盖的总面积为1,即![]()
1. 正态分布/高斯分布:一个对称的钟型曲线(最高点在均值处),用 N(μ,σ),μ为总体均值,σ为总体的标准差
标准正态分布:N(0,1),均值为0,标准差为1
标准正态随机变量:Z = (X - μ) / σ,(具有正态分布N(μ, σ)的随机变量X)
正态变量落在某个区间的概率等于这个区间上密度曲线下面的面积,例如标准正态分布变量落在区间(0.51,1.57)中的概率 ,记为密度函数
![]()