数据的偏度skew和峰度kurtosis

偏度和峰度是数据处理中常用的用来分析数据分布程度的指标,Pandas中提供了这两个函数。

skew 偏度

偏度(skew),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。公式如下:
image
上式中:
μ为均值,σ为标准差,E为期望算子,μ3为第三中心矩,κt为t阶累积量。
下图体现了相对于正态分布的偏度正负值:
image

Pandas使用示例:

# importing pandas as pd
import pandas as pd
  
# Creating the dataframe 
df = pd.read_csv("nba.csv")
  
# skewness along the index axis
df.skew(axis = 0, skipna = True)

# use on df.groupby
df.groupby(['group'])["feature"].skew()

kurtosis 峰度

峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。
image
其中μ4为第四中心矩,σ为标准差。文献中用了几个字母来表示峰度。最常见的选择是κ,只要明确表示它不指向累积量就可以。其他选择包括γ2,类似于偏斜度的符号,尽管有时这被保留为多余的峰度。
image
Pandas使用示例:

# importing pandas as pd
import pandas as pd
  
# Creating the dataframe 
df = pd.read_csv("nba.csv")
  
# skewness along the index axis
df.kurtosis(axis = 0, skipna = True)

# use on df.groupby
df.groupby(['group'])["feature"].apply(pd.DataFrame.kurt)
posted @ 2022-04-07 21:01  Asp1rant  阅读(1963)  评论(0编辑  收藏  举报