数据挖掘中的离群点检测
离群点的定义:离群点是一个数据对象,它显著不同于其他数据对象,好像它是被不同的机制产生一样。
离群点的来源:
(1)客体的异常行为导致,如欺诈、入侵、不寻常的实验结果
离群点检测的必要性:
(1)去除某些异常数据
(2)“一个人的噪声也许是其他人的信号”,可以提供新的视角。
离群点检测的应用领域:
(1)电信、保险、银行中的欺诈检测和风险分析
(2)医学研究中药品产生的异常反应
(3)税务局检测交税记录
(4)检测误差
离群点检测的方法:
(1)基于统计的方法
假定正常的数据对象由一个统计模型(如正太分布)产生,而不遵守该模型的数据是离群点。
应用基于统计分布的离群点检测方法依赖于
优点:
离群点检测的统计学方法具有坚实的基础,建立在标准的统计学技术(如分布参数的估计)之上。
当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效。
缺点:
a.大部分统计方法是针对单个属性的,对于多元数据技术方法较少。
b.在许多情况下,数据分布是未知的。
c.对于高维数据,很难估计真实的分布。
d.这类方法不适合混合类型数据
(2)基于距离的方法
基本思想:一个对象是离群的,如果它远离大部分其它对象。
例如使用k近邻进行检测
(3)基于密度的方法
当数据集含有多种分布或数据集由不同密度子集混合而成时,数据是否离群不仅仅取决于它与周围数据的距离大小,而且与邻域内的密度状况有关。
使用每个对象到第k个最近邻的距离大小或给定邻域范围内其他对象的个数来度量密度。
(4)基于聚类的方法
把离群点检测为不属于任何簇的对象。
基于聚类的方法有两个共同特点:
a.先采用特殊的聚类算法处理输入数据而得到聚类,再在聚类的基础上来检测离群点。
b.只需要扫描数据集若干次,效率较高,适用于大规模数据集。
版权声明:本文为博主原创文章,未经博主允许不得转载。