Outlier Detection : A Survey
摘要:
在数据分析领域,离群点检测是一个非常重要的概念。最近,一些应用程序领域已经实现了数据中的异常值和真实世界的异常之间的直接映射,这对分析师来说非常重要。离群点检测已经在各个应用领域和知识学科中得到了广泛的研究。本调查提供了一个全面的概述,现有的离群点检测技术分类沿不同的维度。
1、介绍
离群点检测是指在数据中发现不符合预期正常行为的模式的问题。这些异常模式通常被称为异常值、异常、不一致的观察、异常、故障、缺陷、畸变、噪声、错误、损坏、意外、新奇、特性或不同应用领域的污染物。离群点检测是一个被广泛研究的问题,广泛应用于各种应用领域,如信用卡、保险、税务欺诈检测、网络安全入侵检测、安全关键系统的故障检测、敌方活动的军事监视等许多领域。
离群值检测的重要性在于,数据中的离群值会转化为各种应用领域中的重要(通常是关键的)信息。例如,计算机网络中的异常流量模式可能意味着被入侵的计算机正在向未经授权的目的地发送敏感数据。在公共卫生数据中,离群值检测技术被广泛用于检测病人医疗记录中的异常模式,这些异常模式可能是新疾病的症状。同样,信用卡交易数据中的异常值可能表明信用卡被盗或滥用。异常值也可以转化为关键的实体,如军事监视,在敌人区域的卫星图像中出现的不寻常区域可以指示敌军的行动。或者飞船的异常读数意味着飞船的某些部件出现了故障。
离群检测已经被发现可以直接应用于许多领域。这导致了大量和高度多样化的离群点检测技术的文献。这些技术中有许多是用来解决与特定应用领域相关的问题的,而其他技术则是用更通用的方式开发的。本调查的目的是提供一个结构化的和全面的概述在离群点检测领域所做的研究。我们已经确定了任何离群点检测技术的关键特征,并使用这些维度将现有技术分类为不同的类别。本调查旨在更好地了解已完成的研究的不同方向,并有助于确定未来研究的潜在领域。
1.1、离群值是什么?
如前面定义的,异常值是数据中的模式,这些模式不符合定义良好的正常行为概念,或者不符合定义良好的异常行为概念,尽管定义正常行为通常更容易。本调查讨论了在数据中发现此类异常值的技术。

图1:A simple example of outliers in a 2-dimensional data set
图1展示了一个简单的二维数据集中的异常值。数据有两个正常区域N1和N2。O1和O2是两个孤立的实例,而O3是一个孤立的区域。如前所述,离群实例是那些不在正常区域内的实例。
离群值几乎存在于每一个真实的数据集中。下面列出了一些离群值的主要原因
- 恶意活动——如保险、信用卡或电信欺诈、网络入侵、恐怖活动
- 仪表错误——如机器部件的缺陷或磨损
- 环境的变化——比如气候变化、消费者新的购买模式、基因突变
- 人为错误——例如汽车事故或数据报告错误
如前所述,数据中可能会由于各种原因产生离群值,但所有这些原因都有一个分析师感兴趣的共同特征。离群值的有趣性或现实生活相关性是离群值检测的一个关键特征,并将其与噪声去除[Teng等人,1990]或噪声调节[Rousseeuw和Leroy 1987]相区别,这些方法处理数据中不需要的噪声。数据中的噪声本身并没有真正的意义,而是成为了数据分析的障碍。在对数据进行任何数据分析之前,需要删除不需要的对象,因此需要去除噪声。噪声调节指的是使统计模型估计不受离群观测的影响。离群值检测的另一个相关主题是新颖性检测[Markou and Singh 2003a;2003 b;Saunders和Gero 2000],旨在检测数据中不可见的(突发的,新颖的)模式。新模式和异常值之间的区别是,新模式在被检测后通常与正常模式合并。需要注意的是,这些相关问题的解决方案通常用于离群点检测,反之亦然,因此在本文中也将进行讨论。
1.2、挑战
离群点检测的一个关键挑战是它涉及到探索看不见的空间。如前所述,在抽象级别上,可以将离群值定义为不符合预期正常行为的模式。一个简单的方法是定义一个代表正常行为的区域,并将数据中任何不属于这个正常区域的观察值声明为离群值。但有几个因素使得这个看似简单的方法非常具有挑战性。
- 定义一个包含所有可能的正常行为的正常区域是非常困难的。
- 通常情况下,正常行为会不断进化,而现有的正常行为概念在未来可能并不具有足够的代表性。
- 正常行为和异常行为之间的界限通常是模糊的。因此,离边界很近的观察结果实际上可能是正常的,反之亦然。
- 对于不同的应用程序域,离群值的确切概念是不同的。每个应用程序域都施加一组要求和约束,从而产生一个用于异常值检测的特定问题公式。
- 在开发离群点检测技术时,用于训练/验证的标记数据的可获得性通常是一个主要问题。
- 在一些情况下,异常值是恶意行为的结果,恶意的对手会调整自己,使这些异常值看起来像正常的,从而使定义正常行为的任务变得更加困难。
- 通常数据中含有与实际离群值相似的噪声,因此很难识别和去除。
在上述挑战的存在下,基于离群点抽象定义的离群点检测问题的广义公式很难求解。事实上,大多数现有的离群值检测技术通过专注于特定的公式来简化问题。该公式是由数据的性质、待检测的异常值的性质、正态的表示等多种因素诱导而成的。在一些情况下,这些因素由应用该技术的应用领域决定。因此,在统计、机器学习、数据挖掘、信息理论、谱分解等不同学科中已经探索了许多不同的离群点检测问题的公式。

图2:一种离群点检测技术的总体设计
如图2所示,任何离群值检测技术都有以下主要成分---
- 数据的性质,异常值的性质,以及共同构成问题公式的其他约束和假设。
- 应用该技术的应用领域。有些技术以更通用的方式开发,但在一个或多个领域仍然可行,而其他技术直接针对特定的应用程序领域。
- 来自一个或多个知识学科的概念和想法。
1.3、我们的贡献
本调查的贡献如下
- 我们已经确定了与离群点检测问题相关的关键维度。
- 我们提供了一个多层次的分类,以分类任何离群点检测技术沿不同的维度。
- 我们提出了当前使用分类框架的离群点检测文献的全面概述。
- 我们区分了数据中基于实例的离群值和发生在顺序或空间数据集中的更复杂的离群值。我们对处理这种复杂异常值的技术进行了单独的讨论。
基于应用知识学科的离群点检测技术分类为不同领域的研究提供了思路,也突出了离群点检测问题尚未探索的研究途径。我们对离群点检测技术进行分类的一个方面是它们所使用的应用领域。这种分类允许在特定应用领域寻找解决方案的任何人轻松地探索该领域的现有研究。
1.4、组织
本调查分为三个主要部分,讨论了离群点检测技术的上述三个成分。在第2节中,我们将确定构成这一问题精确表述的各个方面。本节提出了问题领域的丰富性和复杂性。在第3节中,我们将描述应用离群点检测的不同应用领域。我们识别了每个域的独特特征和用于这些域的离群点检测的不同技术。在第4节中,我们根据不同的离群点检测技术所采用的知识学科对它们进行分类。
1.5、相关工作
如前所述,离群值检测技术可以从几个方面进行分类。Hodge和Austin[2004]在这方面做了最广泛的努力。但他们只专注于在机器学习和统计领域开发的离群点检测技术。大多数关于离群点检测技术的评论都集中在现有研究的一个特定的子领域。Petrovskiy[2003]提出了一个使用数据挖掘技术的离群点检测算法的简短回顾。Markou和Singh提出了一个广泛的审查新新性检测技术使用神经网络[Markou和Singh 2003a]和统计方法[Markou和Singh 2003b]。Lazarevic等人[2003]回顾了用于网络入侵检测的孤立点检测技术。Forrest等人[1999]、Snyder[2001]、Dasgupta和Nino[2000]对专门为系统调用入侵检测开发的离群值检测技术进行了回顾。关于离群点检测的大量研究已经在统计学中进行,并在几本书中得到了评述[Rousseeuw和Leroy 1987;巴尼特和刘易斯1994年,以及其他评论[贝克曼和库克1983;霍金斯1980]。Tang等人[2006]统一了几种基于距离的离群点检测技术。这些相关的工作要么提供了在这一领域所做的研究的粗略分类,要么集中在现有技术的一个子集上。在我们的知识范围内,我们的调查是第一次尝试提供一个结构化和全面的离群点检测技术的概述。
1.6、专业术语
离群点检测和相关概念被认为是不同领域的不同实体。为了便于理解,我们将在这次调查中采用统一的术语。离群点检测问题是指根据对异常行为的特定定义,在给定数据中发现异常模式的任务。异常值指的是数据中的这些异常模式。离群点检测技术是解决离群点检测问题的一种方法。正常模式是指数据中的模式不是异常值。异常值检测技术的输出可以标记为模式(异常值或正常)。一些离群值检测技术还根据模式被认为是离群值的程度为模式分配分数。这样的分数称为离群分数。
2、不同方面的离群点检测问题
本节识别并讨论离群点检测的不同方面。正如前面所提到的,问题的具体形式是由几个不同的因素决定的,比如输入数据、其他资源的可用性(或不可用性)以及应用程序领域引起的约束和需求。本节带来了问题领域的丰富性,并激发了对许多不同技术的需求。
2.1、输入数据

浙公网安备 33010602011771号