应用统计分析

应用统计分析

第一章 绪论

第二章 统计数据的整理与初步分析

数据处理基础

  • 目标:利用统计图表挖掘出有用的信息,把握事物的基本统计信息。
  • 统计数据的分类
    1. 原始资料——为特定目的和专门要求专门调查收集:获取成本高。
    2. 第二手资料——现存的他人已经整理分析的数据:成本较低;但是数据不是专为自己研究收集的,多来源数据拼接是否合理。
  • 统计数据收集方法:
    1. 询问调查法:面谈,邮寄,电话,留置问卷,网络
    2. 观察调查法
    3. 报告法
    4. 实验调查法
    5. 卫星遥感法
  • 统计数据的调查方法
    1. 抽样调查(最重要,可以实现对总体状况的展示):随机抽样,分层随机抽样,整群抽样,系统抽样
    2. 统计报表
    3. 典型调查
    4. 普查
    5. 重点调查
  • 实验研究的四大原则
    1. 要有适当的统计检验力,使总体和样本的均值间差异有实质意义存在
    2. 使用最小人,力,资源
    3. 提供适当的保护,防止第一类型错误出现
    4. 无关干扰变量的影响要小
  • 选取样本对研究总体是否有代表性
    1. 选取样本大小是否足够
    2. 样本选取时的抽样方法是否恰当
    3. 从样本点获取的数据是否精确(比如敏感数据)
  • 统计数据的基本步骤
    1. 审核与订正
    2. 分组或分类
    3. 汇总和计算
    4. 制表与绘图

数据预处理

数据的审核:发现数据中的错误

  • 完整性审核
    • 检查应调查单位和个体是否遗漏
    • 项目指标是否填写完全
  • 准确性审核
    • 数据是否反映客观情况,是否符合实际
    • 检查数据是否有错误,计算是否正确
  • 准确性审核方法
    • 逻辑审查:从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾;主要用于对定类定性数据审核
    • 计算审核:监察各项数据结果计算是否有误,主要用于定量数据审查
    • 适用性审核:弄清楚数据来源,数据口径及有关背景材料,看是否符合研究需要
    • 时效性审核:应尽可能使用新的统计数据
    • 确定是否要对数据进一步加工
  • 需要数据审核的情况
    • 多个来源数据的一致性
    • 统计口径和方法的一致性
    • 数据的缺少和遗漏
    • 文本数据的处理
    • 调查问卷的有效性

数据的筛选:找出负荷条件的数据

  1. 对审核过程中发现的错误应该尽可能纠正
  2. 当发现数据中的错误不能予以纠正,或者有些数据不符合调查要求,对数据进行筛选:将不合要求和有明显错误的数据提出;将符合某种特定条件的数据筛选出来,不符合特定条件的剔除。

数据的订正:修正补齐数据

  • 数据订正分类
    • 缺失数据的处理
    • 遗留数据的补充
    • 文本数据的分类
    • 问卷数据的编码
    • 数据的换算与统一
  • 常见案例
    • 连续数据的缺失:插值法或均值替代等补足
    • 调查数据的缺失
    • 定性/文本数据:定性数据定量化

数据排序:发现数据基本特征

  • 顺序排列或倒叙排列

定性数据的整理与显示

定类数据的整理和展示:属性划分无序次

  • 定类数据的原则

    1. 弄清楚所面对的数据类型,因为不同类型的数据,所采用的处理方式是不同的
    2. 对定类数据和定序数据主要是做分类整理
    3. 对定距数据和定比数据则主要是做分组整理
    4. 适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据(属性数据是低层次数据)
  • 定类数据的整理——频数分布表

    1. 列出各类别
    2. 计算各类别的频数
    3. 制作频数分布表(频数,频率等)
    4. 用图形显示数据
  • 定类数据的展示

    • 条形图(观察大小)
    • 饼图(观察比例)
  • 分类数据的对比

    • 分类变量在不同时间或不同空间上有多个取值
    • 对比分类变量的取值在不同时空上的分布差异或变化趋势

定序数据的整理和展示:属性划分有序次

  • 定序数据的整理
    • 采用累积频数和累积频率(向上累积和向下累积)建立频数分布表
  • 定序数据的展示
    • 累积频数分布图(折线图)
    • 环形图,可以同时绘制多个总体数据

数值型数据的整理与显示

数据的分组

  • 意义:保持各组内统计资料的一致性和组间资料的差异性
  • 作用:划分社会经济现象的类型;揭示事物内部的结构;分析现象之间的依存关系
  • 标志选取:等距/比例变量;次序变量;名义变量或类别变量

编制频数分布表

  1. 确定数组

  2. 确定组距,各组组距

    • 组距分组
      1.将变量值的一个区间作为一组
      2.适合于连续变量
      3.适合于变量值较多的情况
      4.必须遵循不重不漏的原则(不能落在区间边界上)
      5.可采用等距分组,也可采用不等距分组
  3. 计算频数

  4. 编制表格

  • 经验:
数据量 组数
<25 5-6
25-50 7-14
>50 15-20

数值型数据的图示

  • 直方图
  • 累计分布
  • 茎叶图:单定量变量的数据描述
  • 折线图(频数多边形图)
  • 线图(时间序列数据)
  • 雷达图(多变量数据)
  • 复合和结构条形图(累计分布条形图):多个变量数据
  • 环形图:多个变量数据
  • 创建有效的图(复合)

数值型数据布的类型

  • 分组数据
  • 原始数据
  • 时序数据
  • 多元数据

第三章 数据的数字描述

思维导图.png

描述集中趋势(位置)

  • 集中趋势是描述一个变量所有的观测值在某个特殊点附近聚集的程度
  • 低层次的集中趋势描述方式可以用在高层次数据(定类数据-->定序数据-->定距和定比数据;由低到高)

描述指标:均值,众数,分位数

  • 众数:定类数据

    • 不受极端值影响,适用于数据量较大的情况
    • 可能没有众数或有几个众数(不唯一性)
  • 中位数和分位数:定序数据

    • 不受极端数值影响
    • 排序属于中间位置的数字
    • 四分位数,百分位数等同理
    • 中位数计算公式:$M_e=n+1/2$(如果有0.5结尾,则取较小的数再加上与后一个数之差的一半)
  • 均值:定距和定比数据

    • 最常用的测度值,易受极端值影响
    • 一组数据的均衡点所在
    • 加权平均,几何平均(增长率计算)
  • 众数中位数均值对比

    • 平均数度量定距和定比数据的集中趋势,计算时用了数据的全部信息,易受极端数据的影响;当中位数,众数和平均数接近时,应选用平均数;数据呈现偏态分布的时候可以选择中位数和众数
    • 中位数适合作为顺序数据的集中趋势的测度值
    • 众数主要作为名义数据的集中趋势测度,不具有唯一性,只有数据量较多的时候才有意义

离散程度描述(分散程度)

离中趋势(离散程度)

  • 数据分布的一个重要特征
  • 各测度值是对数据离散程度的描述
  • 从另一个侧面说明了集中趋势测度值的代表程度

描述指标:极差,四分位差;异众比率;方差,平均差和标准差;离散系数

  • 极差:定序数据

    • 四分位差也称为内距或四分间距,是第三四分位数和第一四分位数的差,记为$IQR=Q_3-Q_1$,用于衡量中位数的代表性;主要用于定序数据的测定
  • 方差和标准差:定距和定比数据

    • 反映了各变量值与均值的平均差异
    • 最常用的测度值之一
      *平均差
    • 平均差是各变量观测值与其平均数离差绝对值的平均数
  • 异众比率

    • 异众比率是描述定类数据的离散程度的方法之一
  • 离散系数(变异系数)

    • 离散系数描述了相对离散程度,是标准差和平均数的比值
    • 可以描述不同组别数据的离散程度比较,消除数据水平高低和计量单位等因素的影响

分布形状与相对位置(形状)

标准分数

  • 标准分数是观测值与平均数的差除以方差;可以判断数据集中间是否有离群点

偏度

  • 测度数据分布的偏斜程度,反应数值围绕均值的不对称程度
  • 偏度系数SK大于0则右偏,小于0则左偏;绝对值大于1为高度偏度分布;绝对值在0.5-1为中等偏度分布
    1e8baaebe18d49b9a73d79256f2f943b

峰度

  • 测度数据分布的平峰程度,反应了所有数据在均值附近的集中程度
  • 峰度系数K,为3时是正态分布,大于3则为尖峰分布;小于3为扁平分布
    dfd67c422b2644da887378df2dcce2ee

标准化

  • 标准化即将每个数据化为标准分数,没有改变数据的分布形状,使得均值为0,标准差为1

切比雪夫不等式

  • 对于任意分布形态的数据,a9334579f8154c5b92c8c5f93d9d05f1
    以此为基础形成6$\sigma$原则

异常值

  • 对于正态分布的数据,几乎所有数据都在均值三个标准差范围内

箱线图

箱线图是一种显示数据分布形态的统计图
见书p54:箱线图定义及画法

统计指数

统计指数概念,作用和分类

  • 概念:相对数
  • 作用:
    反映复杂社会经济现象总体的综合变动方向和变动程度,这是总指数最基本的作用
    分析现象总体变动中的各个因素的影响方向和影响程度
    对社会经济现象进行综合评价和测定
    分析研究社会经济现象在长时间内的发展变化趋势
    在金融产品创新中发挥重要作用
  • 种类:
    • 按所反映的对象范围不同,分为个体和总体指数
    • 按其反映现象的性质不同,分为数量和质量指标指数
    • 按比较的对象不同,分为动态、静态和计划完成指数
  • 统计指数的分类

1c667c4ea54548ae88e8156d829776c9

  • 统计指数的常见编制方法
graph LR; A(统计指数的编制方法)-->B1(简单指数法); A---B2(加权指数法); B1---C1(简单综合法); B1---C2(简单算数法); B1---C3(简单几何平均法); B1---C4(简单调和平均法); B1---C5(简单中位数法); B1---C6(简单众数法); B2---C7(加权综合指数法); B2---C8(加权平均指数法); C7---D1(拉斯贝尔指数法); C7---D2(派许指数法); C7---D3(固定权数指数法); C8---D4(加权算术平均指数法); C8---D5(加权调和平均指数法); C8---D6(固定数权指数法);

综合指数——数量指标指数,质量指标指数

  • 概念:相对数
  • 作用:
    反映复杂社会经济现象总体的综合变动方向和变动程度,这是总指数最基本的作用
    分析现象总体变动中的各个因素的影响方向和影响程度;对社会经济现象进行综合评价和测定
    分析研究社会经济现象在长时间内的发展变化趋势
    在金融产品创新中发挥重要作用
  • 种类:
    • 按所反映的对象范围不同,分为个体和总体指数
    • 按其反映现象的性质不同,分为数量和质量指标指数
    • 按比较的对象不同,分为动态,静态和计划完成指数

指数因素分析——体系因素分析法

常见的统计指数

第四章 抽样与抽样分布

基本概念

graph LR; 总体--随机抽样-->样本 样本-->样本统计量 样本统计量--对总体参数的估计-->总体
  • 名词解释: 总体,个体,样本,样本容量
  • 有代表性样本要求:样本显示的特征与总体具有的特征类似
  • 参数与统计量
    • 参数:描述总体分布特征的量,如平均数,标准差
    • 统计量:由样本观察值算出来的量,如$X,S^2$;是随机变量
  • 抽样分布
    • 所有的样本指标所形成的分布称为抽样分布
    • 抽样分布是一种理论概率分布
    • 抽样分布的结果来自于容量相同的所有可能样本
  • 样本统计量与总体统计量
    • 所有样本均值的均值等于总体均值
    • 样本均值的方差等于总体方差的1/n(样本容量为n)

抽样

概率抽样

  1. 随机抽样就是按等概率原则直接从含有N个元素的总体中抽取n个元素组成样本(N>n)。这种方法简便易学,常用的办法就是抽签了。不过,这适合总体单位较少时使用。
    • 利用随机数表生成随机样本
    • 适用于总体个数有限的情况
  2. 分层抽样是指在抽样时,将总体分成互不相交的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本的方法。
  3. 整群抽样又称聚类抽样,是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群。然后以群为抽样单位抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。
  4. 系统抽样亦称为机械抽样、等距抽样。当总体中的个体数较多时,采用简单随机抽样显得较为费事。这时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样叫做系统抽样。
      可以简化为: 随机抽样就是抽签,用于数量较小的;分层抽样就是一组样品中有几中性质不同的,按性质来分;整群抽样就是以群为单位抽取;系统抽样就是按100一隔或者50一隔来分。

选取样本对研究总体是否有代表性

  1. 选取样本大小是否足够
  2. 样本选取时的抽样方法是否恰当
  3. 从样本点获取的数据是否精确

常用分布

正态分布

$t$分布

  • 小样本分布

$X^2$分布(卡方分布)

  • 适用于对一个总体的方差推新,拟合优度和独立性检验

$F$分布

  • 两个卡方函数的比值

两项式分布

样本统计量的抽样分布

posted @ 2021-03-07 13:02  吴博成  阅读(723)  评论(0)    收藏  举报