无限偿债之数据分析统计学的笔记

无限偿债之数据分析统计学笔记

 

 

统计学的本质

统计分析的目的

收集数据、整理分析数据和由数据得出结论的一组概念、原则和方法

 

描述统计:利用表格。图形或者数值(数值特征)来展示和刻画数据中的信息

 

推断统计:利用样本获得的数据对总体的性质进行估计或者检验,总体的性质通常用概率模型。

 

统计分析的相关概念

4种测量尺度

 

定类(nominal

定序(ordinal

定比、定距(scale

定类和定序合并为分类变量

定距和定比合成连续变量。

分类变量的描述方法只能用频次统计、对于连续变量的描述统计方法即可以使用频次统计,也可以使用均值,标准差。

均值

算数平均

几何平均:在计算多年的平均增长率时,复增长率

调和平均:可能用在数据中较多数值聚集在最小值附近,原因可能是因为调和哦英俊相对于算数,几何最小。

调整平均:是指从上限值和下限值中去掉一定比例后的数据剩下的算数平均值。可以去一定比例的最大值和最小值的原因是因为这些值很可能是异常值。

中位数和众数

中位数:当一组序列数据之间差异较大时,导致平均值代表性较弱可通过中位数来表示数据的集中趋势

 

平均值、中位数通常运用子啊连续变量中,即数值型变量数据;众数既可以用子啊连续变量也可以用在分类变量。

 

极差和标准差

衡量离散趋势,数据离散趋势代表了数据中包含的信息量。

 

  1. 如果希望比较两种数据的离散趋势,不能直接比较两组数据的标准差,因为两组数据的数量和均值不同。通常选用离散系数进行比较,离散系数等于标准差除以均值
  2. 标准差计算公式中有的除以n,有的除以n-1,当计算总体数据标准差时除以n,通过样本数据计算总体标准差时除以n-1,原因是认为增大标准差,以提高代表性。

统计推断/假设检验

抽样误差

由个体变异产生的、抽样造成的样本统计量与总体参数的差别。原因:

抽样

个体差异

标准误差

表示样本统计量抽样误差大小的统计量,计算公式

 

Z值转化公式

用来将T分布转化为(0,1Z分布,又称为标准化,或者叫Z值标准化.

Z=(xi-x-)/s用于判断哪些数值为异常值,Z值的绝对值大于3为异常值,大于5为极端值。

 

 

参数估计

定义:用样本统计量推断总体参数

点估计:用响应样本统计量直接作为总体参数的估计值。

区间估计:按照预先给定的概率所确定的包含未知总体参数的一个范围。

 

置信度

T=1.65 对应90%的置信度

T=1.98 对应95%的置信度

T=1.98 对应95%的置信度

 

假设检验过程

  1. 定义H0H1 H0通常是定义两个变量之间不存在相关性或没有显著差异。
  2. 选择合适的检验方法,计算统计量
  3. 根据统计量计算概率P
  4. P值与显著性水平0.05对比,P<0.05,拒绝原假设H0,则接收研究假设H1,反之P>0.05则接收原假设H0拒绝研究假设H1

 

抽样调查与普查

抽样调查特点

花费少

讯速地获取信息

争取时效是非常重要的

总体太大,实际上无法实行普查

个别对象难以接触

科学地抽样,样本具有代表性-可以控制抽样误差

普查特点

总体较小

总体差异(方差)较大

抽样误差较大

 

误差:抽样误差(可控制);非抽样误差(由于人为的差错引起的误差,也叫偏差)

 

抽样过程

 

抽样单元

为了方便地实现随机抽样,常常把总体划分为有限个互不重叠的部分,每一部分叫做一个抽样单元。

抽样框

一般来说,普查可以提供抽样框

表现形式名单,地图、统计年鉴等

很多时候,很难获得完整的抽样框资料

 

抽样的样式

概率抽样

 

等概率抽样——所有的样本单位所出现的机会是相同的

不等概率抽样——可以计算每个样本单位所出现的概率。

按随机/概率规律的原则,从总体中抽取样本,可以对总体进行推断

 

非概率抽样

 

所有的样本单位出现的机会是不确定的

不能计算每个样本单位所出现的概率,因为选择样本的方法是非随机的。

方便抽样:利用会议、展览、商场、街头抽样、报刊问卷调查、网络问卷。

判断抽样:依据研究这的主管判断,选取可以代表总体的个体作为样本

配额抽样:按照调查对象的某种属性或特征,将总体中所有个体分类,然后按照一定比例分别抽取样本,配额抽样有可能接近概率抽样的结果。前提是各类群通知,无需随机抽样,类型划分合理;配额符合总体中各类型的分布。

滚雪球抽样:又称裙带抽样、推荐抽样、是一种在稀疏总体中寻找受访者的抽样方法

 

简单随机抽样

 

简单抽样方法是指,对所有调查对象编上一连串的号码,据此名册随机抽样

优点:精度高

缺点:费时费事,进行调查总体范围广的访问调查时,实施费用多

 

系统抽样(等距抽样)

 

按照一定规律进行抽样

优点:不费事,不费时

缺点:精度比简单抽样方法低,调查总体清单有规律的排列时,抽取出来的可能只是特定性质的样本

 

PPS抽样

 

这是抽样单位在2个以上时的抽样方法,通过缩小区域和调查对象范围,从大规模的总体中高效地进行抽样。他是一种使用辅助信息,从而使每个单位均有按其规模大小成比例的被抽中概率的一种抽样方式。

PSS抽样实际上是整群抽样与简单随机抽样或等距抽样配合的两阶段抽样。

PSS抽样是指按概率比例抽样,属于概率抽样中的一种

 

分层抽样

 

分层原则:层内差异小,层间差异大

优点:子总体内抽样单元之间差异较小,子样本具有较好的均匀性,可能得到较高精度的估计量

有效消除特殊个体的影响

可对各层的特性加以比较

实施管理方便

如何选择分层的变量:

选择那些与研究主题高度相关的变量,比如研究收问题是,考虑学历、年龄、性别等影响收入的基本属性;

成本:分层的因素考虑越多选取的样本量则会越多。学历(高中低)、收入(高中低)、性别(男女),总共18类,每类样本量至少保证30人以上,18*30=540

将与研究主题不太相关主题可以不考虑,或者将因数的分类减少。

 

区域抽样

在访问调查中,由于居民基本登记名册使用是来不方便,一级抽样选出街区后,在二级抽样中抽取样本,也有用住宅地图来代替抽样花名册的情况。

特征:在没有调查对象清单的访问调查中使用

 

时间抽样

 

卡方检验

假设检验的结论:p值小于0.05 则研究假设成立。反之P值大于0.05 假设不成立。

 

非参数检验的重要性

24 适用于不知道总体参数的校验,是一种常用的非参数校验

当不适用参数校验法时,第一个宪法哦帆软就是卡方检验

 

卡方检验的应用场景

比例分布校验

检验一个变量中取值比例分布是否均匀,或者是否符合定比分布

操作:分析-非参数校验-就对话框-卡方

原假设:是指变量的取值分布与均匀分布(或研究者设定的分布)没有显著差异

研究假设:是指变量的取值分布与均匀分布(或研究者设定的分布)有显著差异

P<0.05则研究假设成立。

二项式检验

检验一个变量取二分类两个值的概率是否符合设定的概率

二项式

分割点:是将一个连续变量,选择一个值分割大于该值和小于该值

原假设:变量的第一个取值比例与设定的比例没有显著差异

研究假设:变量的第一个取值比例与设定的比例没有显著差异

 

Ks检验

检验样本来自总体中,一个变量的分布是否服从正态分布,均匀分布,泊松分布,指数分布

原假设:变量来自总体的分布与正态分布(均匀分布等)没有显著差异,即变量总体中呈现正态分布

研究假设:变量来自总体的分布与正态分布(均匀分布等)有显著差异,即变量总体中不呈现正态分布

P<0.05则研究假设成立。

 

游程校验

检验两个变量是否随机

检验的场景:通常是检验随着时间变化而产生的两个数值,出现是否随机

 

原假设:变量两个值出现顺序是随机的

研究假设:变量两个值出现顺序不是随机的

 

独立样本、配对样本

独立样本:两组不同重叠的样本,比如男性和女性在收入。年龄分布上是否有差异检验不同人群在特定变量取值上是否有差异

注意:分组变量是分类变量、比较变量是连续变量

 

配对样本:非参数检验

配对样本:同一个人不同时间采集两组或多组数据。

检验同一组人群子在不同时间采集的数据是否有效。

注意:t1t2.比较的变量必须是连续变量不能是分类变量

原假设:两组来自总体的变量数据分布上没有差异,即两组数据在改变量上的取值没有显著差异

研究假设:两组来自总体的变量数据分布上没有差异,即两组数据在改变量上的取值有显著差异

 

交叉分析(列联表分析)

检验两个分类变量是否有相关性。

如果场景中需要对连续变量进行卡方校验,首先需要将连续变量转换为分类变量,如年龄分为 00 90 80 70

连续变量转成分类变量的操作: 转换-重新编码为不同变量,收入分为0-50/51-400401-+OO

 

t检验

T检验的目的

样本均值有差异,总体之间确实存在差异的概率是多少

 

三种应用场景

单样本均值检验

某个变量的样本均数与给定总体的已知均数相比,其差异是否有显著差异,检验连续变量

原假设:样本来自总体的变量均值与给定的均值没有显著差异

数据要求: 小样本是来自的总体服从正态分布,如果大样本或者是数据收集的时候没有特殊性,可以忽略正态分布的假设。

用到的变量:一个连续变量

操作: 分析比较平均值-单样本t检验

独立样本均值检验

用来检验两组独立样本在某个连续变量的均值是否存在显著差异

原假设:两组独立样本来自的总体在该变量的均值上没有显著差异

数据要求:样本来自的总体服从正态分布。

两样本必须相互独立,即:抽取其中一批样本对抽取另一批样本没有任何影响,两组样本的个体案例数可以不相等

要求两样本是大样本,小样本必须来自总体。

用到的变量:一个连续变量和一个分类变量(也可以将一个连续变量分组得到一个分组变量)

方差齐性检验:

原假设:两组总体中的方差是相等的

研究假设:两组总体中的方差是不等的

P<0.05,则研究假设成立,即两组总体中的方差是不等的, 需要看第二行的t 反之看第一行

操作: 分析比较平均值-独立样本t检验

 

配对样本均值检验

用于检验同一组样本不同时间/部位/处理条件测量得到的两组数据均值是否存在差异。

原假设:两组配对数据没有显著差异

操作: 分析比较平均值-成对t检验

第六节方差检验

变量:自变量既可以是分类也可以是连续,因变量必须是连续变量

1单因素方差检验

检验3组及以上人群在某个连续变量均值上是否存在差异,或某个分类变量对某个连续变量是否存在显著相关

变量:因变量是一个,且为连续变量,自变量一个,为分类变量

 

原假设:自变量与因变量之间不存在显著相关(不同人群之间在该连续变量的均值上没有显著差异)

研究假设:自变量与因变量之间存在显著相关(不同人群之间在该连续变量的均值上有显著差异)

 

操作:分析-比较平均值-单因素 ANOVA检验

1两两比较中根据方差检验结果,来选择方差相符的比较结果或方差不等的检验结果

2方差齐性检验:选项-方差齐性检验。当方差不齐时,则通过非参数检验中的K个独立样本检验法进行检验

  

2多因素方差检验

检验多个变量在某个连续变量均值上是否存在差异,或某个多个变量对某个连续变量是否存在显著相关

变量:因变量是一个,且为连续变量,自变量多个,既可以是分类变量也可以为连续变量

原假设:多个自变量与因变量之间不存在显著相关(不同人群之间在该连续变量的均值上没有显著差异)

研究假设:多个自变量与因变量之间存在显著相关(不同人群之间在该连续变量的均值上有显著差异)

 

全因子模型的含义:是考虑所有自变量对于因变量的直接效应,有考虑所有分类变量的交互作用对因变量的影响

定制模型:可根据研究者自身需求,定制需要考虑的对因变量的影响因素。比如只考虑自变量的直接效应,或部分自变量的交互作用。

当自变量特别多时,尤其是分类自变量特别多时,且样本量不多时,应该使用定制模型。

 

统计学分析方法

多变量分析方法选择

1,有因变量,则建立有监督模型

1)因变量为连续变量(建立的模型又称为回归预测模型),自变量为连续变量是,可选择回归分析,方差分析;自变量为分类变量或分类+连续变量,可选择带虚拟变量的回归分析,联合分析、方差分析

2)因变量为分类变量(建立的模型又称为分裂预测模型),自变量为连续变量(或连续+分类时),可选用 判别分析、逻辑回归等;当自变量全部为分类变量时,可选取对数线性回归

有监督模型具有俩大通用目的,分析那些自变量量对因变量存在显著影响作用;通过选择对因变量存在显著影响的自变量,建立预测因变量的预测模型

2,无因变量,则建立无监督模型

目的: 对人进行分类; 对变量指标进行分类 ;分析变量与变量之间的测量关系

1)自变量为连续变量时,选择因子分析(对变量/指标分类)、聚类分析(对人分类、对变量/指标分类)

2)自变量为分类变量时,对应分析(对人类)、多维尺度分析(对人分类)

3、其他分析

1)当模型中需要加入潜在变量(通过多个客观指标测量的抽象概念),或需要考虑多个变量之间的因果关系是,可以选择结构方程模型,路劲模型,协方差模型

2)综合评价:通过多个指标对多个评价对象进行排名,可选择层次分析法、因子分析等

4、为连续变量

相关系数

1、不同变量类型的相关系数

1)两个变量都为连续变量,则可用pearso相关系数

2)两个变量都为定序变量,则可用GMMA等相关系数

3)两个变量都为定量变量。则可用LAMDA相关系数

4)一个变量为定类变脸,一个变量为连续变量,可通过ETA系数

2、相关系数是衡量两个变量

 

偏相关系数

在很多显示情况,单纯的两个变量之间的相关性,还会收到其他变量的干扰,因此考察两个变量的相关性时往往需要剔除干扰变量的影响,再来计算相关性比如,商品需求量和价格。消费者收入之间的关系,需求量与价格之间的关系还包括了消费者收入对商品需求量的影响。同时收入对价格也会产生影响,斌通过价格变动传递到对商品续期量的影响中。

 

三个重要相关系数

Person相关系数:参数检验,针对两个都是连续变量的数据进行相关性判断

Spearman相关系数:非参数检验,针对两个都是定序变量

kendal's tau-b相关系数:非参数检验,针对两个都是定序变量

 

 

 

相关分析的假设检验

原假设:两个变量来自总体中不存在的显著相关性

研究假设:两个变量来自总体中存在显著相关性

 

显著性检验目的:是用来判断两个变量在总体中是否存在相关性

相关系数的目的:是计算两个变量在样本中的相关性强弱

操作:分析- 相关-双变量

 

偏相关分析

注意:计算相关性的变量为连续变量,加入控制的变量同样也是连续变量

 

回归分析

目的:当需要用一个数学表达式(模型)表示多个因素(原因)与另外一个因素之间的关系时,可选用回归分析

应用:

·分析那些自变量对因变量存在显著影响作用,R方值可以不要求大于0.8

·通过选择对因变量存在显著影响的自变量,建立预测因变量取值的预测模型,R方值可以必须要求大于等于0.8

 

但是在人文社科领域很多回归模型的R方值发不到0.8,也可以用来做预测

 

回归分析是研究变量间统计关系的方法。侧重考察回归分析的类型

·因变量与自变量都是定义变量的回归分析:普通回归

·因变量是定量变量,自变量中有定性变量的回归分析:含有哑变量的回归分析

·因变量是定性变量的回归分析:logistics回归分析

回归分类

根据自变量的个数

一元回归

多元回归

根据因变量

连续变量的回归

分类变量的回归

根据自变量与因变量的关系

线性回归

非线性回归

 

 

回归分析前提

线性趋势

·自变量和因变量的关系时线性的,如果不是,则不能采用线性回归分析。可以通过散点图来加以判断

 

独立性

·因变量y取值相互独立,之间没有联系。反映到模型中要求残差间相互独立,不存在自相关,否则采用自回归模型分析

正态性

·自变量的任何一个线性组合,因变量y均服从正态分布。反映到模型中要求残差服从正态分布

方差齐性

·自发变量的任何一个线性组合,因变量y的方差均相同,反映发哦模型中要求残差的方差齐性

 

回归分析建立的步骤

选择变量

因变量:根据研究需求或问题推导出来

自变量:第一:前人的研究成果,第二:个人经验

 

确定自变量与因变量之间的关系

首先挨个将自变量与因变量画散点图判断每个自变量与因变量之间的是线性还是非线性。

其次,通过卡方检验、t检验、f检验或相关分析法,挨个分析每个备选的自变量与音变变之间是够存在显著的相关性,将与因变量明显没有相关性的自变量剔除掉,不加入后期模型中。

 

选择对应的线性方程或非线性方程,进行各项参数计算

 

对模型进行全方位检验

第一:多重共线性检验,检验多个自变量之间是够存在相关性较高的变量,如有,则保留与因变量相关性最高一个变量。

 

回归分析的软件操作

解决问题:分析影响人们家庭收入因素有哪些,建立预测收入的回归方程

因变量:家庭收入

自变量:年龄,学历,性别,工作年限

虚拟变量

原因:分类变量无法参与到回归模型中的加减乘除运算

操作:将原分类编码转为0 1 数值

 

 

posted @ 2021-10-17 14:26  佟大帅  阅读(788)  评论(0编辑  收藏  举报