kNN算法总结

这几日在看大名鼎鼎的Machine Learn in Action,刚刚看完kNN算法部分,为了分析和巩固,现做个总结。

  1. kNN分类器的代码:
    import numpy as np
    
    def kNNclassify0(inX,train_set,train_labels,k):
        rownumbers = train_set.shape[0]
        inX1 = inx.tile(inX , [rownumbers,1])
        distance1 = inX1 - train_set
        distance2 = distance1**2
        distance3 =distance2.sum(axis=1)
        sortedIndex = distance3.argsort()
        classcount = {}
        for i in range(k):
            labels = train_labels[sortedIndex[i]]
            classcount[labels] = classcount.get(labels,o)+1
        sortedclasscount = sorted(classcount.iteritems(),key=operator.itemgetter(1),reverse=True)
        return sortedclasscount[0][0]

    这是kNN分类器的主体部分,输入一个待分类的inX(包括各种features,但是不确定label),一个已经有确定label的各个对象的feature集,以及k。结果输出inX属于哪个label。

    1.   第一步是将inX的行数扩增到train_set的行数(使用的numpy里面的tile()函数);
    2.       第二步计算inX和train_set各个feature的距离(使用欧式距离公式);
    3.       排序,计算距离从小到大的前k个里面各个label的count(使用字典的get()函数);
    4.       再对最后的count数集进行从大到小的排序(使用的sorted()函数)
    5.       最终所求label结果就是count数集的[0][0]项。
posted @ 2017-01-14 16:29  amoxine  阅读(265)  评论(0)    收藏  举报