2-KNN(K最邻近算法)

KNN基本思想：

1、事先存在已经分类好的样本数据（如分别在A类、B类、C类等）

2、计算待分类的数据（叫做新数据）与所有样本数据的距离

3、选择K个与新数据距离最近的的样本，并统计这K个样本所属的分类（如K=10，其中有3个为A，3个为B，4个为C）

4、将新数据归属于这K个样本中出现频率最高的那个类（则新数据可分为C类）

*******************************************************************************************************************************

KNN误判率：与判别所选的距离有关。

常见的距离有：欧式距离、曼哈顿距离、Mahalanobis距离等。

*******************************************************************************************************************************

算法改进：

1、KNN易受噪声影响，孤立点对分类效果影响较大，通常先进行滤波筛选

2、K的选取也会影响分类效果

3、样本数据分类不均匀，A类样本很大，B类样本很小，则容易出现误分类；可以采取加权的方式，距离越段，则权值越大。

改进的主要思想有：

1、基于组合分类器的KNN改进算法（做多个KNN分类器，然后通过投票法组合，得票最多的分类器结果做为最终组合KNN的输出）

2、基于核映射的KNN改进算法（映射到高维空间间，突出不同类别样本间的差异，或使其线性可分）

3、基于预聚类的KNN改进算法（计算新数据与每个聚类中心的距离，将距离最短的聚类看做为近邻点的集合，然后在该集合中找K个距离最近样本，然后在用KNN算法来分类）

*******************************************************************************************************************************

KNN主要用于文本分类、聚类分析、预测分析、降维等。

posted on 2017-03-14 20:27 JHJ_BABY 阅读(173) 评论(0) 编辑收藏举报

刷新页面返回顶部

JHJ_BABY