kNN算法总结

这几日在看大名鼎鼎的Machine Learn in Action，刚刚看完kNN算法部分，为了分析和巩固，现做个总结。

kNN分类器的代码：
```
import numpy as np

def kNNclassify0(inX,train_set,train_labels,k):
    rownumbers = train_set.shape[0]
    inX1 = inx.tile(inX , [rownumbers,1])
    distance1 = inX1 - train_set
    distance2 = distance1**2
    distance3 =distance2.sum(axis=1)
    sortedIndex = distance3.argsort()
    classcount = {}
    for i in range(k):
        labels = train_labels[sortedIndex[i]]
        classcount[labels] = classcount.get(labels,o)+1
    sortedclasscount = sorted(classcount.iteritems(),key=operator.itemgetter(1),reverse=True)
    return sortedclasscount[0][0]
```
这是kNN分类器的主体部分，输入一个待分类的inX（包括各种features，但是不确定label），一个已经有确定label的各个对象的feature集，以及k。结果输出inX属于哪个label。
1. 　　第一步是将inX的行数扩增到train_set的行数（使用的numpy里面的tile()函数）；
2. 第二步计算inX和train_set各个feature的距离（使用欧式距离公式）；
3. 排序，计算距离从小到大的前k个里面各个label的count（使用字典的get()函数）；
4. 再对最后的count数集进行从大到小的排序（使用的sorted()函数）
5. 最终所求label结果就是count数集的[0][0]项。

posted @ 2017-01-14 16:29 amoxine 阅读(265) 评论(0) 收藏举报

刷新页面返回顶部