数据分析

 

  • 数据获取
  • 探索分析与可视化  (前两步:数据分析)
  • 预处理理论
  • 分析建模
  • 模型评估  (后三步:数据建模和挖掘)

 

数据分析的含义与目标:

  统计分析方法  ;  提取有用信息  ;  总结与概括

 

  数据获取:

    • 数据仓库
    • 监测与抓取
    • 填写、日志、埋点
    • 计算

    数据仓库:

      将所有业务数据经汇总处理,构成数据仓库(DW)

      • 全部事实的记录
      • 部分维度与数据的整理(数据集市__DM)

     数据库VS数据仓库:

      数据库:面向业务存储,(高并发、快速读写)

      数据仓库:面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)

      数据库:针对应用(OLTP)

      数据仓库:针对分析(OLAP)

    监测与抓取:

      直接分析网页、接口、文件的信息

    填写、埋点、日志:

      用户填写信息

      APP或网页埋点(特点流程的信息记录点)

      操作日志

    计算:

      通过已有数据计算生成衍生数据

 

  探索性数据分析:

    单因子与对比分析:

       集中趋势:  均值、中位数、分位数、众数

      离中趋势:  标准差、方差

      数据分布:  偏态和峰态、正态分布与三大分布

      理论抽样:  抽样误差、抽样精度

    数据分类:

      定类(类别):  根据事物离散、无差别属性进行的分类

      定序(顺序):  可以界定数据的大小,但不能测量差值

      定距(间隔):  可以界定数据大小的同时,可测定差值,但无绝对零点

      定比(比率):  可以界定数据大小,可测定差值,有绝对零点

 

     单属性分析:

      异常值分析:    离散异常值、连续异常值、常识异常值

      对比分析:     绝对数和相对数、时间、空间、理论维度比较

      结构分析:     各组成部分的分布与规律

      分布分析:     数据分布频率的显示分析

 

    多因子和复合分析:

      假设检验与方差检验

      相关系数:  皮尔逊、斯皮尔曼

      回归:    线性回归

      PCA与奇异值分解  ----降维

    复合分析:

      交叉分析

      分组与钻取

      相关分析

      因子分析

      聚类分析

      回归分析

 

posted @ 2019-07-29 15:20  JamJarBranch  阅读(160)  评论(0)    收藏  举报