数据分析
- 数据获取
- 探索分析与可视化 (前两步:数据分析)
- 预处理理论
- 分析建模
- 模型评估 (后三步:数据建模和挖掘)
数据分析的含义与目标:
统计分析方法 ; 提取有用信息 ; 总结与概括
数据获取:
-
- 数据仓库
- 监测与抓取
- 填写、日志、埋点
- 计算
数据仓库:
将所有业务数据经汇总处理,构成数据仓库(DW)
-
-
- 全部事实的记录
- 部分维度与数据的整理(数据集市__DM)
-
数据库VS数据仓库:
数据库:面向业务存储,(高并发、快速读写)
数据仓库:面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)
数据库:针对应用(OLTP)
数据仓库:针对分析(OLAP)
监测与抓取:
直接分析网页、接口、文件的信息
填写、埋点、日志:
用户填写信息
APP或网页埋点(特点流程的信息记录点)
操作日志
计算:
通过已有数据计算生成衍生数据
探索性数据分析:
单因子与对比分析:
集中趋势: 均值、中位数、分位数、众数
离中趋势: 标准差、方差
数据分布: 偏态和峰态、正态分布与三大分布
理论抽样: 抽样误差、抽样精度
数据分类:
定类(类别): 根据事物离散、无差别属性进行的分类
定序(顺序): 可以界定数据的大小,但不能测量差值
定距(间隔): 可以界定数据大小的同时,可测定差值,但无绝对零点
定比(比率): 可以界定数据大小,可测定差值,有绝对零点
单属性分析:
异常值分析: 离散异常值、连续异常值、常识异常值
对比分析: 绝对数和相对数、时间、空间、理论维度比较
结构分析: 各组成部分的分布与规律
分布分析: 数据分布频率的显示分析
多因子和复合分析:
假设检验与方差检验
相关系数: 皮尔逊、斯皮尔曼
回归: 线性回归
PCA与奇异值分解 ----降维
复合分析:
交叉分析
分组与钻取
相关分析
因子分析
聚类分析
回归分析

浙公网安备 33010602011771号