ML_inAction—Chapetr2--(1) kNN算法实现

1.初探数组array

数组定义中中括号个数的区别:

aa = array([[1,2,3],[1,1,1]])    #2行3列      两个中括号,最外面的中括号表示这是一个数组,中间的括号表示这是一行,并用逗号隔开每一行
aa = array([1,2,3])  #3行1列
aa = array([[1,2,3]])  #1行3列

数组的运算:数组的加减乘除、幂次方就是对数组中的每个元素分别进行计算,并返回一个数组

>>> aa=array([1,2,3])
>>> bb=array([1,2,3])
>>> aa*bb
array([1, 4, 9])
>>> aa/bb
array([1, 1, 1])
>>> aa-bb
array([0, 0, 0])
>>> aa+bb
array([2, 4, 6])
>>> aa*2
array([2, 4, 6])
>>> aa**2
array([1, 4, 9])

2.numpy的tile函数

python中查询库中的函数:help(numpy.title)

 函数格式tile(A,reps)

  A和reps都是array_like

  A的类型众多,几乎所有类型都可以:array, list, tuple, dict, matrix以及基本数据类型int, string, float以及bool类型。

  reps的类型也很多,可以是tuple,list, dict, array, int, bool.但不可以是float, string, matrix类型。

#当tile(A,reps)中的reps为(a,b)时,表示:A中列方向上重复b次,行重复a次
>>> b=[1,3,5]
>>> tile(b,[2,3])
array([[1, 3, 5, 1, 3, 5, 1, 3, 5],
       [1, 3, 5, 1, 3, 5, 1, 3, 5]])
#当tile(A,reps)中的reps为一个数b时,表示A中列方向上重复b次,行重复1次
>>> tile(1,2)
array([1, 1])

>>> tile((1,2,3),3)
array([1, 2, 3, 1, 2, 3, 1, 2, 3])

>>> a=[[1,2,3],[5,4]]
>>> tile(a,[2,3])
array([[[1, 2, 3], [5, 4], [1, 2, 3], [5, 4], [1, 2, 3], [5, 4]],
       [[1, 2, 3], [5, 4], [1, 2, 3], [5, 4], [1, 2, 3], [5, 4]]])

3.sum函数、argsort函数

sum函数

sum(a, axis=None, dtype=None, out=None, keepdims=<no value>, initial=<no value>)
    Sum of array elements over a given axis.
    
    Parameters
    ----------
    a : array_like
        Elements to sum.
    axis : None or int or tuple of ints, optional
        Axis or axes along which a sum is performed.  The default,
        axis=None, will sum all of the elements of the input array.  If
        axis is negative it counts from the last to the first axis.

    Examples
    --------
    >>> np.sum([0.5, 1.5])
    2.0
    >>> np.sum([0.5, 0.7, 0.2, 1.5], dtype=np.int32)
    1
    >>> np.sum([[0, 1], [0, 5]])
    6
    >>> np.sum([[0, 1], [0, 5]], axis=0)        #axis=0,数组各列元素相加,并返回一个数组
    array([0, 6])         
    >>> np.sum([[0, 1], [0, 5]], axis=1)        #axis=1,数组各行元素相加,并返回一个数组
    array([1, 5])
argsort函数
argsort(a, axis=-1, kind='quicksort', order=None) Returns the indices that would sort an array. Parameters ---------- a : array_like Array to sort. Examples -------- One dimensional array: >>> x = np.array([3, 1, 2]) >>> np.argsort(x) array([1, 2, 0]) Two-dimensional array: >>> x = np.array([[0, 3], [2, 2]]) >>> x array([[0, 3], [2, 2]]) >>> np.argsort(x, axis=0) # sorts along first axis (down) array([[0, 1], [1, 0]]) >>> np.argsort(x, axis=1) # sorts along last axis (across) array([[0, 1], [0, 1]])

4.字典的get、iteritems函数以及sorted()

dict.get(key, default=None)

  • key -- 字典中要查找的键。
  • default -- 如果指定键的值不存在时,返回该默认值值。
  • 返回指定键的值,如果值不在字典中返回默认值None。

dict.iteritems()

  Return an iterator over the dictionary’s (key, value) pairs.

sorted(...)和operator.itemgetter()

  operator模块提供的itemgetter函数用于获取对象的哪些维的数据,参数为一些序号(即需要获取的数据在对象中的序号),下面看例子。
  a = [1,2,3]
  >>> b=operator.itemgetter(1)      //定义函数b,获取对象的第1个域的值
  >>> b(a)
  2
  >>> b=operator.itemgetter(1,0)   //定义函数b,获取对象的第1个域和第0个的值
  >>> b(a)
  (2, 1)
  要注意,operator.itemgetter函数获取的不是值,而是定义了一个函数,通过该函数作用到对象上才能获取值。
  
  sorted函数
  sorted(iterable, cmp=None, key=None, reverse=False) --> new sorted list
  Python内置的排序函数sorted可以对list或者iterator进行排序,官网文档见:http://docs.python.org/2/library/functions.html?highlight=sorted#sorted,该函数原型为:
  sorted(iterable[, cmp[, key[, reverse]]])
  参数解释:
  (1)iterable指定要排序的list或者iterable,不用多说;
  (2)cmp为函数,指定排序时进行比较的函数,可以指定一个函数或者lambda函数,如:
         students为类对象的list,没个成员有三个域,用sorted进行比较时可以自己定cmp函数,例如这里要通过比较第三个数据成员来排序,代码可以这样写:
         students = [('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
         sorted(students, key=lambda student : student[2])
  (3)key为函数,指定取待排序元素的哪一项进行排序,函数用上面的例子来说明,代码如下:
           sorted(students, key=lambda student : student[2])
           key指定的lambda函数功能是去元素student的第三个域(即:student[2]),因此sorted排序时,会以students所有元素的第三个域来进行排序。
  有了上面的operator.itemgetter函数,也可以用该函数来实现,例如要通过student的第三个域排序,可以这么写:
  sorted(students, key=operator.itemgetter(2))
  sorted函数也可以进行多级排序,例如要根据第二个域和第三个域进行排序,可以这么写:
  sorted(students, key=operator.itemgetter(1,2))
  即先跟句第二个域排序,再根据第三个域排序。
  (4)reverse参数就不用多说了,是一个bool变量,表示升序还是降序排列,默认为false(升序排列),定义为True时将按降序排列。
利用sorted(...)和operator.itemgetter()就可以对字典按照value进行排序了
dic={'aa':2,'bb':1,'cc':5}
xx=sorted(dic.items(),key=operator.itemgetter(1))
print xx

 5.程序2.1 kNN

def classify0(inX,dataSet,labels,k):
    #计算inX到各训练样本的距离
    dataSet_num = dataSet.shape[0]
    distance = (sum((tile(inX,(dataSet_num,1))-dataSet)**2,axis=1))**0.5
    #获取距离前k小的样本所对应的label及其数量
    distance_sort_index = distance.argsort()
    label_num = {}
    for i in range(k):
        label = labels[distance_sort_index[i]]
        label_num[label] = label_num.get(label,0) + 1
    #输出inX预测的类
    sorted_labelnum=sorted(label_num.items(),key=operator.itemgetter(1),reverse=True)
    return sorted_labelnum[0][0]


#2.1 test
import kNN
group,labels = kNN.createDataSet()
test = [0.11,-0.1]
label_result = kNN.classify0(test,group,labels,3)
print label_result

 

 

2018-10-28

 

posted @ 2018-10-28 01:00  bo0814  阅读(57)  评论(0)    收藏  举报