数据科学理论与实践-6.典型案例及实践
数据科学理论与实践-6.典型案例及实践
大数据时代比较有代表性的应用领域
医学、零售、建筑、银行、交通
6.1统计分析
(1)数据读入
(2)数据理解
(3)数据规整化处理。
(4)模型训练
模型的参数
模型的解释能力
(5)模型解读与评价。
显著性检验
- 回归系数的检验:检验,大于Ta/2则相关,查T分布表
解读方法:p值小于0.005即可
-
回归方程的检验:F检验,可以查看其p值
-
Durbin- Watson检验:检验误差项之间存在自相关关系或序列相关关系
-
残差是否符合正态分布JB统计量
(6)模型优化与重新选择。
(7)模型假定的分析与讨论。
在用统计学方法完成数据科学任务时,应注意每个统计方法都有其基本假定
OLS回归的假定
①正态性。对于固定的自变量值,因变量成为正态分布
②独立性。误差项之间相互独立。
③线性。因变量和自变量之间为线性相关。
④同方差性。因变量的方差不会随着自变量的水平不同而化,即因变量的方差是不变的一一不变方差性。
6.2机器学习
(1)数据读入。
(2)数据理解。
(3)数据规整化处理。
定义特征矩阵
定义目标向量
(4)算法选择及其超级参数的设置
(5)具体模型的训练。
(6)用模型进行预测
(7)模型的评价。
(8)模型的应用与优化。
6.3数据可视化
(1)数据准备。
(2)导入 Python包。
6.4 Spark编程
(1)导入 pyspark包
(2) Spark Session及其创建。
(3) Spark数据抽象类型。
(4) Spark Dataframe操作。
(5)SQL编程。
(6) Dataframe的可视化。
6.5 2012年美国总统大选
6.5.1 2012年美国总统大选成功原因分析
1.团队构建一一竞选团队
竞选团队包括:团队主管、数据科学家、数据分析团队(数据工程师)、团队发言人
2.数据洞见一一乔治·克鲁尼效应
3.数据加工一数据集成
4.数据的资产化管理一保密工作
5.数据业务化一一筹集资金
6.基于数据的决策一建模与仿真
7.DKUW模型的应用一一从数据到智慧

浙公网安备 33010602011771号