数据科学之路-2
2.统计
A.选取数据集:抽样理论,PPS,SPS等。
B.描述性统计:均值,中位数,极差,标准差,方差
C.探索性数据分析(EDA):评估数据质量,探索每个自变量与因变量之间的关系,探索每个自变量之间的相关性,数据正态性检验等,一般画出一些图形容易看出关系和问题。
D.直方图:自变量是连续分布或者是离散分布,因变量是连续的。
E.离群点处理:一般称离数据中位数差2.5个标准差为离群点。
F.概率论:贝叶斯方程,独立事件等
G.贝叶斯:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。
H.随机变量:随机试验各种结果的实值单值函数,即我们把扔色子为6结果的事件,定义为随机变量为6
I.累计分布函数:导数和原函数
J.常见的连续分布:泊松分布,高斯分布等
K.偏差
L.方差分析
M.概率密度函数
N.中心极限定律
O.蒙特卡洛模拟
P.假设检验
Q.P值
R.卡方检验
S.估计
T.置信区间
U.MLE(极大似然估计)
V.核密度估计
W.回归
X.协方差/相关系数
Y.皮尔逊系数,相关关系/因果关系
Z.欧氏距离,最小二乘法