数据挖掘中的离群点检测

离群点的定义:离群点是一个数据对象,它显著不同于其他数据对象,好像它是被不同的机制产生一样。

离群点的来源:

(1)客体的异常行为导致,如欺诈、入侵、不寻常的实验结果

(2)数据测量和收集误差
(3)数据变量内在特性引起,如顾客新的购买模式、基因突变等

离群点检测的必要性:

(1)去除某些异常数据

(2)“一个人的噪声也许是其他人的信号”,可以提供新的视角。


离群点检测的应用领域:

(1)电信、保险、银行中的欺诈检测和风险分析
(2)医学研究中药品产生的异常反应
(3)税务局检测交税记录
(4)检测误差

离群点检测的方法:

(1)基于统计的方法

假定正常的数据对象由一个统计模型(如正太分布)产生,而不遵守该模型的数据是离群点。

 

应用基于统计分布的离群点检测方法依赖于

a.数据分布
b.参数分布 (如均值或方差)
c.期望离群点的数量(置信度区间)

优点:

离群点检测的统计学方法具有坚实的基础,建立在标准的统计学技术(如分布参数的估计)之上。

当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效。

缺点:

a.大部分统计方法是针对单个属性的,对于多元数据技术方法较少。

b.在许多情况下,数据分布是未知的。

c.对于高维数据,很难估计真实的分布。

d.这类方法不适合混合类型数据

(2)基于距离的方法

 

基本思想:一个对象是离群的,如果它远离大部分其它对象。

例如使用k近邻进行检测

 

优点:
基于距离的离群点检测方案简单
缺点:
a检测结果对参数k的选择较敏感
b时间复杂度为o(n^2),难以用于大规模数据集,这里n为数据集的规模;
c需要有关离群因子阈值或数据集中离群点个数的先验知识,在实际使用中有时由于先验知识的不足会造成一定的困难。
d因为它使用全局阈值,不能处理不同密度区域的数据集。

 

(3)基于密度的方法

当数据集含有多种分布或数据集由不同密度子集混合而成时,数据是否离群不仅仅取决于它与周围数据的距离大小,而且与邻域内的密度状况有关。

使用每个对象到第k个最近邻的距离大小或给定邻域范围内其他对象的个数来度量密度。

 

DBSCAN:是一种简单的,基于密度的聚类算法。本次实现中,DBSCAN使用了基于中心的方法。在基于中心的方法中,每个数据点的密度通过对以该点为中心EPs的邻域内的其他数据点的个数来度量。根据数据点的密度分为三类点:
(1)核心点
(2)边界点
(3)离群点

 

(4)基于聚类的方法

 

把离群点检测为不属于任何簇的对象。

基于聚类的方法有两个共同特点:

a.先采用特殊的聚类算法处理输入数据而得到聚类,再在聚类的基础上来检测离群点。

b.只需要扫描数据集若干次,效率较高,适用于大规模数据集。

版权声明:本文为博主原创文章,未经博主允许不得转载。

 

posted on 2015-11-13 01:52  固执的淡水鱼  阅读(1508)  评论(0编辑  收藏  举报

导航