JHJ_BABY

导航

2-KNN(K最邻近算法)

KNN基本思想:

1、事先存在已经分类好的样本数据(如分别在A类、B类、C类等)

2、计算待分类的数据(叫做新数据)与所有样本数据的距离

3、选择K个与新数据距离最近的的样本,并统计这K个样本所属的分类(如K=10,其中有3个为A,3个为B,4个为C)

4、将新数据归属于这K个样本中出现频率最高的那个类(则新数据可分为C类)

*******************************************************************************************************************************

KNN误判率:与判别所选的距离有关。

常见的距离有:欧式距离、曼哈顿距离、Mahalanobis距离等。

*******************************************************************************************************************************

算法改进:

1、KNN易受噪声影响,孤立点对分类效果影响较大,通常先进行滤波筛选

2、K的选取也会影响分类效果

3、样本数据分类不均匀,A类样本很大,B类样本很小,则容易出现误分类;可以采取加权的方式,距离越段,则权值越大。

改进的主要思想有:

1、基于组合分类器的KNN改进算法(做多个KNN分类器,然后通过投票法组合,得票最多的分类器结果做为最终组合KNN的输出)

2、基于核映射的KNN改进算法(映射到高维空间间,突出不同类别样本间的差异,或使其线性可分)

3、基于预聚类的KNN改进算法(计算新数据与每个聚类中心的距离,将距离最短的聚类看做为近邻点的集合,然后在该集合中找K个距离最近样本,然后在用KNN算法来分类)

*******************************************************************************************************************************

KNN主要用于文本分类、聚类分析、预测分析、降维等。

 

posted on 2017-03-14 20:27  JHJ_BABY  阅读(173)  评论(0编辑  收藏  举报