数据挖掘(三) 数据统计

在认识了数据之后,我们要知道基本的数据统计方法为数据处理做准备

数据统计动机

  为了更好地理解数据:集中趋势、分布

数据统计的常用统计特性

  最大值,最小值,中位数,位数,离群值,方差等

中性化趋势度量:均值、中位数、众数

  平均值:一组数据的均衡点(均值对离群值很敏感,因此,中位数和截断均值也很常用(暂时还不理解))\(mean(x) = \bar{x} = \frac{1}{m}\sum_{i=1}^{m}x_{i}\)

  中位数:\(median\left ( x\right ) = \begin{cases}
x_{r+1} & \text{}m为奇数 \\
\frac{1}{2}\left ( x_{r}+x_{r+1}\right ) & m为偶数
\end{cases}\)

  众数:一组数据中出现次数最多的数据值

经验公式:\(mean - mode = 3\times \left ( mean-median\right )\)

离散度度量

下图为一个盒状图,红色小点即为离群点,所谓离群点就是我们数据里面可能存在的一些噪音数据,通常在我们数据挖掘的算法过程中要删除这些点,来提高我们数据挖掘算法的精度和效果

 

 四分位点:四分位数:Q1(第25百分位),Q3(第75百分位)

     四分位数极差:IQR = Q3 - Q1

五点概况:min,Q1,median,Q3,max

离群点:通常一个值高于或低于\(1.5\times IQR\)

posted @ 2022-05-08 21:40  swsyya  阅读(323)  评论(0)    收藏  举报

回到顶部