数据挖掘中的离群点检测

离群点的定义：离群点是一个数据对象，它显著不同于其他数据对象，好像它是被不同的机制产生一样。

离群点的来源：

（1）客体的异常行为导致，如欺诈、入侵、不寻常的实验结果

（2）数据测量和收集误差

（3）数据变量内在特性引起，如顾客新的购买模式、基因突变等

离群点检测的必要性：

（1）去除某些异常数据

（2）“一个人的噪声也许是其他人的信号”，可以提供新的视角。

离群点检测的应用领域：

（1）电信、保险、银行中的欺诈检测和风险分析
（2）医学研究中药品产生的异常反应
（3）税务局检测交税记录
（4）检测误差

离群点检测的方法：

（1）基于统计的方法

假定正常的数据对象由一个统计模型（如正太分布）产生，而不遵守该模型的数据是离群点。

应用基于统计分布的离群点检测方法依赖于

a.数据分布

b.参数分布 (如均值或方差)

c.期望离群点的数量(置信度区间)

优点：

离群点检测的统计学方法具有坚实的基础，建立在标准的统计学技术(如分布参数的估计)之上。

当存在充分的数据和所用的检验类型的知识时，这些检验可能非常有效。

缺点：

a.大部分统计方法是针对单个属性的，对于多元数据技术方法较少。

b.在许多情况下,数据分布是未知的。

c.对于高维数据,很难估计真实的分布。

d.这类方法不适合混合类型数据

（2）基于距离的方法

基本思想：一个对象是离群的，如果它远离大部分其它对象。

例如使用k近邻进行检测

优点：

基于距离的离群点检测方案简单

缺点：

a检测结果对参数k的选择较敏感

b时间复杂度为o(n^2)，难以用于大规模数据集，这里n为数据集的规模；

c需要有关离群因子阈值或数据集中离群点个数的先验知识，在实际使用中有时由于先验知识的不足会造成一定的困难。

d因为它使用全局阈值，不能处理不同密度区域的数据集。

（3）基于密度的方法

当数据集含有多种分布或数据集由不同密度子集混合而成时，数据是否离群不仅仅取决于它与周围数据的距离大小，而且与邻域内的密度状况有关。

使用每个对象到第k个最近邻的距离大小或给定邻域范围内其他对象的个数来度量密度。

DBSCAN：是一种简单的，基于密度的聚类算法。本次实现中，DBSCAN使用了基于中心的方法。在基于中心的方法中，每个数据点的密度通过对以该点为中心EPs的邻域内的其他数据点的个数来度量。根据数据点的密度分为三类点：

(1)核心点

(2)边界点

(3)离群点

（4）基于聚类的方法

把离群点检测为不属于任何簇的对象。

基于聚类的方法有两个共同特点：

a.先采用特殊的聚类算法处理输入数据而得到聚类，再在聚类的基础上来检测离群点。

b.只需要扫描数据集若干次，效率较高，适用于大规模数据集。

posted on 2015-11-13 01:52 固执的淡水鱼阅读(1625) 评论(0) 收藏举报

刷新页面返回顶部

固执的淡水鱼

数据挖掘中的离群点检测

导航

公告