绪论、概率论基础

绪论、概率论基础

1 绪论

1.1 数据信息知识

(1) DIKW知识链

image
image

注:通过结构获得一定的信息
image

注:130表示同一标识地区同一天出生的顺序号,基数分配给男性,偶数分配给女性;最后一位是校验码,通过SO的标准计算(0-9、X)。

img

(2) 相关数学理论

image

注:集合论是研究集合(由一堆抽象对象构成的整体)的数学理论,包含集合和元素以及关系等最基本数学概念。
image

img

image

image

image

image

image

image

image

image

1.2 数据类型

image

注:Nominal:饼图、柱状图、横向柱状图;

Ordinal:柱状图;

interval/Ratio:直方图,箱型图、折线图;

image

(1) 定类数据

img

注:我们比较不同程序语言,分别将C、C++、Java定义为1,2,3;也可定义为2,3,4.定类数据之间的数学关系就是等于(=)或者不等于(≠)。我们可以说Java≠C,但不能说Java>C

(2)定序数据

img

(3)定距数据

img

(4)定比数据

image

注:摄氏度0度不代表没有温度;

(5)小结

image

(6)其它数据类型

image

1.3 数据汇总

分类:

\1. 集中趋势度量( Central Tendency)

\2. 离散趋势度量(Variation Tendency)

\3. 形态趋势度量

(1)集中趋势度量

image

众数

img

中位数

image

四分位数

image

image

img

image

image

N分位数

image

(算数)平均数

image

缺点:易受极值的影响

img

image

求和稳定性

image

加权平均数

image

image

几何平均数

image

img

image

注:对数(几何平均数)→算术平均数

调和平均数

image

平方平均数

image

img

(2)离散趋势度量

image

image

全距

image

image

内距

image

偏差平方和

image

注:为什么用算术平均值做偏差?算术平均数的偏差极小性

img

方差与标准差

image

在计算方差的时候,我们使用计算式,而不是定义式!
image

注:偏差方 = 平方的和-和的平方

img

1.4数据科学不同角色

img

2 概率论基础

2.1 概率定义

image

img

(1) 事件

image

事件集合表示

image

事件的集合运算

image

image

事件发生的频率

image

image

(2)古典概率

定义

img

计算

image

(3)几何概率

image

示例

image

image

image

img

image

img

image

(4)概率的公理化定义

image

image

image

2.2 概率计算

条件概率

img

image

image

img

乘法公式

image

image

image

image

全概率公式

img

image

image

image

image

image

image

image

image

贝叶斯公式

image

img

image

img

image

独立性

image

image

image

image

image

2.3 随机测试示例

image

img

image

image

image

image

img

image

有放回抽样

image

无放回抽样

image

img

posted @ 2021-12-31 15:28  不会写代码的花生  阅读(128)  评论(0)    收藏  举报