异常检测

原始模型前提

假设所有特征均服从正态分布:

数据集划分

假定有1万个好引擎,20个坏引擎。训练集全部都是好引擎,以便训练出均值和方差。则按如下分类:

原始模型步骤

1.计算从j=1,2,3...,n的所有均值和方差:

2.选定一个可疑点x,计算:

3.判定:

 评价指标

参数的确定

为了确定ε的大小或者特征多少的确定,可以在交叉验证集上,试试哪个ε可以使得F值最大,就选择那个。

与监督学习的区别

数据集非常偏斜的情况下使用异常检测算法

若检测效果不好

假定一开始只用一个特征去检测,没有检测出来:

则可以多采用一个特征:

 比如下图新增x5,x6特征:

多元高斯分布

不要为x1,x2单独建模,而是利用多元高斯分布建立一个统一的模型p,其中参数为:

公式:

图像(假定三维):

 

多元高斯分布步骤

1.计算参数:

2.给定一个样本进行计算:

3.判定

原始模型和多元高斯模型的比较

1.使用原始模型需要人为手动创建新特征,而高斯模型会自动步骤特征之间的关系。

2.当特征非常多的时候, 原始模型计算的成本更低

3.在使用高斯时,要求m远大于n。

 

posted @ 2019-05-09 00:33  Jary霸  阅读(161)  评论(0)    收藏  举报