异常检测方法的直观可视化
异常检测方法的直观可视化
查看这个可视化的异常检测方法,以及它所来自的Python项目,这是一个可以自己轻松实现异常值检测方法的工具包。
异常值是数据实例,似乎不太容易适应剩余数据或结果模型的行为。虽然许多机器学习算法故意不考虑异常值,或者可以修改以明确地丢弃它们,但有时候异常值本身就是钱。
而且这不能比欺诈检测更直接,欺诈检测使用异常值来识别欺诈活动。定期在纽约及其周边地区使用您的信用卡,在网上使用您的信用卡,主要是购买无关紧要的信用卡?在Soho的一家咖啡店里用过它,在上西区吃过晚餐,但是在巴黎的电子设备上“花了好几千块钱”?有你的异常值,这些是使用各种机器学习技术不懈地追求的。
这个简单的例子实际上使这看起来太简单了。实际上,对异常值没有通用的定义; 你能想象试图定义一个特定的规则,描述地理上“太远”是不是真实的,哪些适用于所有类似于上述案例的欺诈检测场景?即使我们能够同意异常值是什么,取决于我们可能不想删除它的应用程序,只要知道它的存在。
但即使说我们有兴趣收到检测到的异常值的通知,也有各种各样的方法可以做到这一点。想要使用简单的描述性统计方法,例如识别低维数据点,这些数据点落在正态分布中与平均值的标准偏差的特定倍数?很酷,如果这对你有用。但是还有很多其他方法。
看看这个可视化的异常值检测方法来自Python异常值检测(PyOD)的创建者- 我鼓励你点击它以享受全分辨率的荣耀:

点击放大
以非常直观的方式可视化不少于12个离群值检测方法。他们把这个放在一起做得很好。
当然,虽然这可以作为一个很好的备忘单来了解异常检测方法的工作原理,但这实际上来自前面提到的Python项目:
PyOD是一个全面且可扩展的Python工具包,用于检测多变量数据中的外围对象。这个激动但具有挑战性的领域通常被称为异常检测或异常检测。自2017年以来,PyOD已成功应用于各种学术研究和商业产品。
如果您正在学习异常检测,PyOD是一个简单的工具包,它有一个Scikit-learn风格的API,包括许多检测算法实现(它的GitHub repo有链接到算法的原始论文),并且足够直观,几乎可以运行如果您熟悉当代Python机器学习生态系统的各个组件,请立即使用。您可以在此处找到项目的文档。