统计概率--描述统计知识(视频摘录)

统计概率

 

统计学和概率论

使用统计思维来分析数据,而不是一头雾水,使用统计的工具,来分析数据。

概率来描述不确定性:数据挖掘和机器学习得到的模型都是一种概率。

 

大纲:

统计概率:

  1. 描述统计:表格法和图形法
  2. 描述统计:数值方法
  3. 概率
  4. 离散型的概率分布
  5. 连续型的概率分布

估计:

  1. 抽样和抽样分布
  2. 区间估计
  3. 线性回归

参考:《商务经济和统计》

 

描述统计:表格法和图形法

 

分类型数据汇总:

(用文本描述的数据,包括如id, 星期等时间,男女性别)

  • 频数分布: 类似group by分组,然后加count()/sum()
  • 相对频数分布:每个数据除以总体样本数
  • 百分数频数分布:👆加上百分号
  • 条形图
  • 饼图

⚠️:强调,做数据分析(不想向数据挖掘方向发展)的同学,execl必须要熟练,窗口的拖拽非常方便。

 

遇到分类型数据:要看一下分布,使用条形图,饼图。

 

连续(数值衡量)数据: (数值有大小,高低之分)

频数分布3步骤:

  1. 确定不重叠的数组:规定数据范围,这个范围用于数据进行分组
  2. 确定每组宽度。每组宽度相同,  近似组宽=(最大值-最小值)/组数。
  3. 确定组限:保证每一个数据值只属于一组

直方图:histogram

pandas.plot.hist()中的bins参数用于把数值分组。

一般来说,变量分组在横轴,频率方在纵轴。

 

连续数据:双变量(

使用交叉分组和散点图。双变量可以是分类或数量的,常见一个分类一个数量。

散点图表示2个数量变量之间的关系,可以画出趋势线。

还可以分析相关性:选择数据分析->相关系数->选择输入区域。

 

连续数据:数值计算方法

用这些常用的方法来分析数据,得到结论。

  • 位置的度量
    • mean
    • medial 中位数
    • 众数(出现次数最多的数)
    • 百分位数
      • 提供了数据如何散步在从min到max的区间上的信息。第p个百分位数是:
        1. 至少有p%的观测值小于或等于该值
        2. 至少有(100-p)%的观测值大于或等于该值
      • 计算方法:
      1. 把数据从小到大排列,
      2. 计算指数i=(p/100)n,
      3. p是所求的百分位数,n是观测值的个数。
      4. 若i不是整数,则向上取整,大于i的下一个整数表示第p百分位数的位置,若i是整数,则第p百分位数是第i和i+1项数据的平均数。
      5. 例子:excel有一列数字,求50%位数。则i=(50/100)*count(这列), 然后下拉bar,找到这个i所对应value,再对value进行第4步的计算。
    • 四分位数:
      • Q1, 中位数,Q3, 把数据集分成四份。
  • 变异程度的度量(离散)
  • 分布形态,相对位置的度量和异常值检测
  • 五数概括法。就是pd.describe(),min, max , q1,q2,q3。
    • 箱型图基于概括法表示出了q1,q2,q3.
  • 两变量之间的关系的度量:
    • 协方差
      • Sxy=∑(xi-mean(x))(yi-mean(y)) / n
        • 正负,代表方向。
        • 大小代表相关的强度
        • 有缺陷:受到计量单位影响。比如y数据集翻了10倍,那么协方差也会翻10倍。其实他们的相关行是一样的。
    • 皮尔逊相关系数
      • rxy=Sxy / SxSy
      • Sx和Sy是各自的标准差。
      • 得到的值是 -1~1
      • 和协方差类似:正负代表正负相关性,值代表强度。
      • 优势:不受到计量单位的影响了。y数据集翻倍后系数也一样。(被标准差除了)
      • ⚠️:excel中数据分析:“相关行”就是使用皮尔逊相关系数。
    • ⚠️两者:没有因果关系。
    • 可以使用seaborn来计算。

 

 

 

 

 

 

 



posted @ 2020-03-15 11:41  Mr-chen  阅读(478)  评论(0)    收藏  举报