ML_inAction—Chapetr2--(1) kNN算法实现
1.初探数组array
数组定义中中括号个数的区别:
aa = array([[1,2,3],[1,1,1]]) #2行3列 两个中括号,最外面的中括号表示这是一个数组,中间的括号表示这是一行,并用逗号隔开每一行 aa = array([1,2,3]) #3行1列 aa = array([[1,2,3]]) #1行3列
数组的运算:数组的加减乘除、幂次方就是对数组中的每个元素分别进行计算,并返回一个数组
>>> aa=array([1,2,3]) >>> bb=array([1,2,3]) >>> aa*bb array([1, 4, 9]) >>> aa/bb array([1, 1, 1]) >>> aa-bb array([0, 0, 0]) >>> aa+bb array([2, 4, 6]) >>> aa*2 array([2, 4, 6]) >>> aa**2 array([1, 4, 9])
2.numpy的tile函数
python中查询库中的函数:help(numpy.title)
函数格式tile(A,reps)
A和reps都是array_like
A的类型众多,几乎所有类型都可以:array, list, tuple, dict, matrix以及基本数据类型int, string, float以及bool类型。
reps的类型也很多,可以是tuple,list, dict, array, int, bool.但不可以是float, string, matrix类型。
#当tile(A,reps)中的reps为(a,b)时,表示:A中列方向上重复b次,行重复a次
>>> b=[1,3,5]
>>> tile(b,[2,3])
array([[1, 3, 5, 1, 3, 5, 1, 3, 5],
[1, 3, 5, 1, 3, 5, 1, 3, 5]])
#当tile(A,reps)中的reps为一个数b时,表示A中列方向上重复b次,行重复1次
>>> tile(1,2)
array([1, 1])
>>> tile((1,2,3),3)
array([1, 2, 3, 1, 2, 3, 1, 2, 3])
>>> a=[[1,2,3],[5,4]]
>>> tile(a,[2,3])
array([[[1, 2, 3], [5, 4], [1, 2, 3], [5, 4], [1, 2, 3], [5, 4]],
[[1, 2, 3], [5, 4], [1, 2, 3], [5, 4], [1, 2, 3], [5, 4]]])
3.sum函数、argsort函数
sum函数
sum(a, axis=None, dtype=None, out=None, keepdims=<no value>, initial=<no value>) Sum of array elements over a given axis. Parameters ---------- a : array_like Elements to sum. axis : None or int or tuple of ints, optional Axis or axes along which a sum is performed. The default, axis=None, will sum all of the elements of the input array. If axis is negative it counts from the last to the first axis. Examples -------- >>> np.sum([0.5, 1.5]) 2.0 >>> np.sum([0.5, 0.7, 0.2, 1.5], dtype=np.int32) 1 >>> np.sum([[0, 1], [0, 5]]) 6 >>> np.sum([[0, 1], [0, 5]], axis=0) #axis=0,数组各列元素相加,并返回一个数组 array([0, 6]) >>> np.sum([[0, 1], [0, 5]], axis=1) #axis=1,数组各行元素相加,并返回一个数组 array([1, 5])
argsort函数
argsort(a, axis=-1, kind='quicksort', order=None) Returns the indices that would sort an array. Parameters ---------- a : array_like Array to sort. Examples -------- One dimensional array: >>> x = np.array([3, 1, 2]) >>> np.argsort(x) array([1, 2, 0]) Two-dimensional array: >>> x = np.array([[0, 3], [2, 2]]) >>> x array([[0, 3], [2, 2]]) >>> np.argsort(x, axis=0) # sorts along first axis (down) array([[0, 1], [1, 0]]) >>> np.argsort(x, axis=1) # sorts along last axis (across) array([[0, 1], [0, 1]])
4.字典的get、iteritems函数以及sorted()
dict.get(key, default=None)
- key -- 字典中要查找的键。
- default -- 如果指定键的值不存在时,返回该默认值值。
- 返回指定键的值,如果值不在字典中返回默认值None。
dict.iteritems()
Return an iterator over the dictionary’s (key, value) pairs.
sorted(...)和operator.itemgetter()
operator模块提供的itemgetter函数用于获取对象的哪些维的数据,参数为一些序号(即需要获取的数据在对象中的序号),下面看例子。
a = [1,2,3]
>>> b=operator.itemgetter(1) //定义函数b,获取对象的第1个域的值
>>> b(a)
2
>>> b=operator.itemgetter(1,0) //定义函数b,获取对象的第1个域和第0个的值
>>> b(a)
(2, 1)
要注意,operator.itemgetter函数获取的不是值,而是定义了一个函数,通过该函数作用到对象上才能获取值。
a = [1,2,3]
>>> b=operator.itemgetter(1) //定义函数b,获取对象的第1个域的值
>>> b(a)
2
>>> b=operator.itemgetter(1,0) //定义函数b,获取对象的第1个域和第0个的值
>>> b(a)
(2, 1)
要注意,operator.itemgetter函数获取的不是值,而是定义了一个函数,通过该函数作用到对象上才能获取值。
sorted函数
sorted(iterable, cmp=None, key=None, reverse=False) --> new sorted list
Python内置的排序函数sorted可以对list或者iterator进行排序,官网文档见:http://docs.python.org/2/library/functions.html?highlight=sorted#sorted,该函数原型为:
sorted(iterable[, cmp[, key[, reverse]]])
参数解释:
(1)iterable指定要排序的list或者iterable,不用多说;
(2)cmp为函数,指定排序时进行比较的函数,可以指定一个函数或者lambda函数,如:
Python内置的排序函数sorted可以对list或者iterator进行排序,官网文档见:http://docs.python.org/2/library/functions.html?highlight=sorted#sorted,该函数原型为:
sorted(iterable[, cmp[, key[, reverse]]])
参数解释:
(1)iterable指定要排序的list或者iterable,不用多说;
(2)cmp为函数,指定排序时进行比较的函数,可以指定一个函数或者lambda函数,如:
students为类对象的list,没个成员有三个域,用sorted进行比较时可以自己定cmp函数,例如这里要通过比较第三个数据成员来排序,代码可以这样写:
students = [('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
sorted(students, key=lambda student : student[2])
(3)key为函数,指定取待排序元素的哪一项进行排序,函数用上面的例子来说明,代码如下:
sorted(students, key=lambda student : student[2])
key指定的lambda函数功能是去元素student的第三个域(即:student[2]),因此sorted排序时,会以students所有元素的第三个域来进行排序。
有了上面的operator.itemgetter函数,也可以用该函数来实现,例如要通过student的第三个域排序,可以这么写:
sorted(students, key=operator.itemgetter(2))
sorted函数也可以进行多级排序,例如要根据第二个域和第三个域进行排序,可以这么写:
sorted(students, key=operator.itemgetter(1,2))
students = [('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
sorted(students, key=lambda student : student[2])
(3)key为函数,指定取待排序元素的哪一项进行排序,函数用上面的例子来说明,代码如下:
sorted(students, key=lambda student : student[2])
key指定的lambda函数功能是去元素student的第三个域(即:student[2]),因此sorted排序时,会以students所有元素的第三个域来进行排序。
有了上面的operator.itemgetter函数,也可以用该函数来实现,例如要通过student的第三个域排序,可以这么写:
sorted(students, key=operator.itemgetter(2))
sorted函数也可以进行多级排序,例如要根据第二个域和第三个域进行排序,可以这么写:
sorted(students, key=operator.itemgetter(1,2))
即先跟句第二个域排序,再根据第三个域排序。
(4)reverse参数就不用多说了,是一个bool变量,表示升序还是降序排列,默认为false(升序排列),定义为True时将按降序排列。
(4)reverse参数就不用多说了,是一个bool变量,表示升序还是降序排列,默认为false(升序排列),定义为True时将按降序排列。
利用sorted(...)和operator.itemgetter()就可以对字典按照value进行排序了 dic={'aa':2,'bb':1,'cc':5} xx=sorted(dic.items(),key=operator.itemgetter(1)) print xx
5.程序2.1 kNN
def classify0(inX,dataSet,labels,k): #计算inX到各训练样本的距离 dataSet_num = dataSet.shape[0] distance = (sum((tile(inX,(dataSet_num,1))-dataSet)**2,axis=1))**0.5 #获取距离前k小的样本所对应的label及其数量 distance_sort_index = distance.argsort() label_num = {} for i in range(k): label = labels[distance_sort_index[i]] label_num[label] = label_num.get(label,0) + 1 #输出inX预测的类 sorted_labelnum=sorted(label_num.items(),key=operator.itemgetter(1),reverse=True) return sorted_labelnum[0][0]
#2.1 test
import kNN
group,labels = kNN.createDataSet()
test = [0.11,-0.1]
label_result = kNN.classify0(test,group,labels,3)
print label_result
test = [0.11,-0.1]
label_result = kNN.classify0(test,group,labels,3)
print label_result
2018-10-28
浙公网安备 33010602011771号