数据的偏度skew和峰度kurtosis

偏度和峰度是数据处理中常用的用来分析数据分布程度的指标，Pandas中提供了这两个函数。

skew 偏度

偏度（skew），是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。公式如下：

上式中：
μ为均值，σ为标准差，E为期望算子，μ3为第三中心矩，κt为t阶累积量。
下图体现了相对于正态分布的偏度正负值：

Pandas使用示例：

# importing pandas as pd
import pandas as pd
  
# Creating the dataframe 
df = pd.read_csv("nba.csv")
  
# skewness along the index axis
df.skew(axis = 0, skipna = True)

# use on df.groupby
df.groupby(['group'])["feature"].skew()

kurtosis 峰度

峰度（peakedness;kurtosis）又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来，峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量，如果峰度大于三，峰的形状比较尖，比正态分布峰要陡峭。反之亦然。

其中μ4为第四中心矩，σ为标准差。文献中用了几个字母来表示峰度。最常见的选择是κ，只要明确表示它不指向累积量就可以。其他选择包括γ2，类似于偏斜度的符号，尽管有时这被保留为多余的峰度。

Pandas使用示例：

# importing pandas as pd
import pandas as pd
  
# Creating the dataframe 
df = pd.read_csv("nba.csv")
  
# skewness along the index axis
df.kurtosis(axis = 0, skipna = True)

# use on df.groupby
df.groupby(['group'])["feature"].apply(pd.DataFrame.kurt)

posted @ 2022-04-07 21:01 Asp1rant 阅读(2853) 评论(0) 收藏举报

刷新页面返回顶部

Asp1rant

数据的偏度skew和峰度kurtosis

skew 偏度

kurtosis 峰度

公告