数据特征分析(学习笔记)

    数据特征分析包括以下几个方面的内容:

    1、分布分析

      a、定量数据分布分析:绘制频率直方分布图

      b、定性数据分布分析:根据变量的分类类型分组,绘制饼图和条形图来描述分布

    2、对比分析

      a、绝对数对比

      b、相对数对比(如结构相对数、比例相对数)

    3、统计量分析

      a、集中趋势度量:均值、中位数、众数

      b、离中趋势度量:极差、标准差、变异系数(标准差/均值)、四分位数间距

 

    

 

    4、周期性分析:帕累托法则(即为二八法则)

    5、相关性分析(连续变量之间线性相关的程度)

      a、绘制散点图、绘制散点图矩阵

      b、计算相关系数(皮尔森相关系数、斯皮尔曼秩相关系数、判定系数)

 

    

 

    可以从上面的代码中,计算出任意两款菜式的相关系数。可以看出,pandas的corr()函数用来计算皮尔森是非常方便的。D.corr(method='pearson')可以计算方法,默认是皮尔森,还支持Kendall、spearman相关系数。

posted @ 2018-03-05 10:18  CCColby  阅读(3545)  评论(0编辑  收藏  举报