kNN算法总结
这几日在看大名鼎鼎的Machine Learn in Action,刚刚看完kNN算法部分,为了分析和巩固,现做个总结。
- kNN分类器的代码:
import numpy as np def kNNclassify0(inX,train_set,train_labels,k): rownumbers = train_set.shape[0] inX1 = inx.tile(inX , [rownumbers,1]) distance1 = inX1 - train_set distance2 = distance1**2 distance3 =distance2.sum(axis=1) sortedIndex = distance3.argsort() classcount = {} for i in range(k): labels = train_labels[sortedIndex[i]] classcount[labels] = classcount.get(labels,o)+1 sortedclasscount = sorted(classcount.iteritems(),key=operator.itemgetter(1),reverse=True) return sortedclasscount[0][0]
这是kNN分类器的主体部分,输入一个待分类的inX(包括各种features,但是不确定label),一个已经有确定label的各个对象的feature集,以及k。结果输出inX属于哪个label。
- 第一步是将inX的行数扩增到train_set的行数(使用的numpy里面的tile()函数);
- 第二步计算inX和train_set各个feature的距离(使用欧式距离公式);
- 排序,计算距离从小到大的前k个里面各个label的count(使用字典的get()函数);
- 再对最后的count数集进行从大到小的排序(使用的sorted()函数)
- 最终所求label结果就是count数集的[0][0]项。

浙公网安备 33010602011771号