统计概率--描述统计知识(视频摘录)
统计概率
统计学和概率论
使用统计思维来分析数据,而不是一头雾水,使用统计的工具,来分析数据。
概率来描述不确定性:数据挖掘和机器学习得到的模型都是一种概率。
大纲:
统计概率:
- 描述统计:表格法和图形法
- 描述统计:数值方法
- 概率
- 离散型的概率分布
- 连续型的概率分布
估计:
- 抽样和抽样分布
- 区间估计
- 线性回归
参考:《商务经济和统计》
描述统计:表格法和图形法
分类型数据汇总:
(用文本描述的数据,包括如id, 星期等时间,男女性别)
- 频数分布: 类似group by分组,然后加count()/sum()
- 相对频数分布:每个数据除以总体样本数
- 百分数频数分布:👆加上百分号
- 条形图
- 饼图
⚠️:强调,做数据分析(不想向数据挖掘方向发展)的同学,execl必须要熟练,窗口的拖拽非常方便。
遇到分类型数据:要看一下分布,使用条形图,饼图。
连续(数值衡量)数据: (数值有大小,高低之分)
频数分布3步骤:
- 确定不重叠的数组:规定数据范围,这个范围用于数据进行分组
- 确定每组宽度。每组宽度相同, 近似组宽=(最大值-最小值)/组数。
- 确定组限:保证每一个数据值只属于一组
直方图:histogram
pandas.plot.hist()中的bins参数用于把数值分组。
一般来说,变量分组在横轴,频率方在纵轴。
连续数据:双变量(
使用交叉分组和散点图。双变量可以是分类或数量的,常见一个分类一个数量。
散点图表示2个数量变量之间的关系,可以画出趋势线。
还可以分析相关性:选择数据分析->相关系数->选择输入区域。
连续数据:数值计算方法
用这些常用的方法来分析数据,得到结论。
- 位置的度量
- mean
- medial 中位数
- 众数(出现次数最多的数)
- 百分位数
- 提供了数据如何散步在从min到max的区间上的信息。第p个百分位数是:
- 至少有p%的观测值小于或等于该值
- 至少有(100-p)%的观测值大于或等于该值
- 计算方法:
- 把数据从小到大排列,
- 计算指数i=(p/100)n,
- p是所求的百分位数,n是观测值的个数。
- 若i不是整数,则向上取整,大于i的下一个整数表示第p百分位数的位置,若i是整数,则第p百分位数是第i和i+1项数据的平均数。
- 例子:excel有一列数字,求50%位数。则i=(50/100)*count(这列), 然后下拉bar,找到这个i所对应value,再对value进行第4步的计算。
- 四分位数:
- Q1, 中位数,Q3, 把数据集分成四份。
- 变异程度的度量(离散)
- 极差:max-min
- 四分位数间距,Q3-Q1
- 方差:
- 方差越大,(变异程度就越大):每个数距离平均数较远。
- ∑(ui-mean) 2/ n
- 标准差:s 开根号方差,可以加上数值的单位。
- 标准差系数: (s/mean) *100%
- 分布形态,相对位置的度量和异常值检测
- 见:https://www.cnblogs.com/chentianwei/p/12488891.html
- 切比雪夫定理。
- 异常值检测:
- IQR: 四分位距。Q3-Q1
- 不在上下限之间的值是异常值。
- 下限:Q1-1.5*IQR
- 上限:Q3+1.5IQR
- 五数概括法。就是pd.describe(),min, max , q1,q2,q3。
- 箱型图基于概括法表示出了q1,q2,q3.
- 两变量之间的关系的度量:
- 协方差
- Sxy=∑(xi-mean(x))(yi-mean(y)) / n
- 正负,代表方向。
- 大小代表相关的强度
- 有缺陷:受到计量单位影响。比如y数据集翻了10倍,那么协方差也会翻10倍。其实他们的相关行是一样的。
- Sxy=∑(xi-mean(x))(yi-mean(y)) / n
- 皮尔逊相关系数
- rxy=Sxy / SxSy
- Sx和Sy是各自的标准差。
- 得到的值是 -1~1
- 和协方差类似:正负代表正负相关性,值代表强度。
- 优势:不受到计量单位的影响了。y数据集翻倍后系数也一样。(被标准差除了)
- ⚠️:excel中数据分析:“相关行”就是使用皮尔逊相关系数。
- ⚠️两者:没有因果关系。
- 可以使用seaborn来计算。
- 协方差
浙公网安备 33010602011771号