python数据分析 基础统计学的学习(1)

      

  统计学的问题实质可以分为以下几个层面

(1)描述一件事物基本的性质

(2)比较两个事物间的差异

(3)一件事物两种不同属性之间的相关关系

(4)分析影响事物的变化的因素

(5)取样的方法如何评价并改进

      一、描述统计

  描述统计主要研究在得到大量数据后如何对数据进行整理,通过少数几个指标对该数据的全貌进行阐述。具体的方面有:

(1)数据如何分组,如何用统计图表表现这种分组。

(2)计算一组数据的特征值,平均数集中表示该数据的集中情况,包括算术平均、加权平均、几何平均、调和平均,还有众数和中位数。还要计算一组数据的分散情况,利用平均差、标准差、方差、变异系数等方法。

(3)因为统计数据经常是针对某一事物从不同方面去检索数据,所以判断同一事物两组数据的相关关系也很重要。

       借助描述性统计我们可以初步理解数据的某些特征从而理解被研究事物本身的一些特质。

 二、推断统计

       推断统计主要研究如何通过局部数据推断整体数据信息,推断总体情形。其主要包括以下几方面:

(1)总体参数特征值的估计方法。

(2)各种非参数的统计方法。

(3)如何对假设进行检验,大样本的Z检验,小样本的t检验,变异系数的F检验,以及其他的卡方检验等等。

(4)回归分析。

 

       实验设计是心理学上用于如何更加科学、经济地设计实验以获得更有意义的数据的方法,对应上面问题实质的第五块。

 

       我为了考试所以用的教材是张厚粲老师的《现代心理与教育心理学》,从书名可以看出这本书主要是偏心理偏应用层面的,所以基本没有什么数学推导和数学表达式,对于数学不好的(比如我)朋友想要上手统计学可谓比较友好。我当时学的《商务统计分析》其实也用于商务数据分析也很好,朋友们也可以去入手。

       根据教材的特点,所以我后面撰写大概会分为三个层面,概念描述、应用方向分析以及python实现。

 

 

  三、相关概念

       首先是数据类型。

       计数数据一般是由调查得到计算个数的数据,某地人口数、某校男生数,一般都有独立的分类单位。测量数据是借助一定测量工具和测量标准获得的数据,考试成绩、身高体重。

       定名数据只用于描述事物属性的不同,比如性别就可以用01表示,这个数据不能比较不能运算。

       定距数据除了能描述事物属性不同还能进行程度上的比较,但这种数据没有相对单位也没有绝对0。

       定距数据是具有相等单位的数据,可以表示程度不同,还能进行加减运算表示差异的程度,但还不能用于乘除。

       定比数据即表示数据量的大小,也有相等的单位,还有绝对零点,可以用作比率比较得到新的数据形式。

       可以说这几种数据解锁的功能是逐步提升的。

 

       连续型和离散型数据不展开。

 

       再介绍变量、观测值和随机变量。

       变量就是在实验中要研究的对象的数据形式,研究医患关系中群众对医生群体的信任程度,这个量化的信任程度就是我们变量,一旦我们用量表获得了这个值,这个值就称为这个变量的观测值。

       变量可以是常数也可以是可变值。随机变量就是在取前不知道具体的数值徽式多少,不能准确预料取得量值。

      

       再讲总体样本和个体。

       总体是指有某种那个特征得一类事物的全体,总体的大小随研究问题的描述而改变。构成总体的基本单元就是个体。而在统计过程中抽取的部分个体就是总体的样本。更复杂的定义和阐述可以参见测度论之类的书。

       再介绍次数、比率、频率和概率。

       一件随机事件,本质上在我们观测之前我们是不知道事情出现的结果是啥。而某一种事件出现的多少的度量就是次数,比率是两个数的比,而某一事件发生的数量和总体事件发生次数的比率就是频率,而概率就是事情发生具体可能性的准确度量。

 

       再介绍参数和统计量。

       参数是总体特性的度量,而统计量是样本对应特征值的度量。

       列个表格一一对应进行查看。

参数

统计量

总体平均数、期望值μ

样本平均数X

总体分散情况σ,总体方差就是σ^2

样本方差是s^2

总体相关系数是ρ

样本相关系数是r

总体回归系数是β

样本回归系数是b

posted on 2020-03-19 17:30  张达铃  阅读(631)  评论(0)    收藏  举报

导航