ML_inAction—Chapetr2--(1) kNN算法实现

1.初探数组array

数组定义中中括号个数的区别：

aa = array([[1,2,3],[1,1,1]])    #2行3列      两个中括号，最外面的中括号表示这是一个数组，中间的括号表示这是一行，并用逗号隔开每一行
aa = array([1,2,3])  #3行1列
aa = array([[1,2,3]])  #1行3列

数组的运算：数组的加减乘除、幂次方就是对数组中的每个元素分别进行计算，并返回一个数组

>>> aa=array([1,2,3])
>>> bb=array([1,2,3])
>>> aa*bb
array([1, 4, 9])
>>> aa/bb
array([1, 1, 1])
>>> aa-bb
array([0, 0, 0])
>>> aa+bb
array([2, 4, 6])
>>> aa*2
array([2, 4, 6])
>>> aa**2
array([1, 4, 9])

2.numpy的tile函数

python中查询库中的函数：help(numpy.title)

　函数格式tile(A,reps)

　　A和reps都是array_like

　　A的类型众多，几乎所有类型都可以：array, list, tuple, dict, matrix以及基本数据类型int, string, float以及bool类型。

　　reps的类型也很多，可以是tuple，list, dict, array, int, bool.但不可以是float, string, matrix类型。

#当tile(A,reps)中的reps为（a,b）时，表示：A中列方向上重复b次,行重复a次
>>> b=[1,3,5]
>>> tile(b,[2,3])
array([[1, 3, 5, 1, 3, 5, 1, 3, 5],
       [1, 3, 5, 1, 3, 5, 1, 3, 5]])
#当tile(A,reps)中的reps为一个数b时，表示A中列方向上重复b次,行重复1次
>>> tile(1,2)
array([1, 1])

>>> tile((1,2,3),3)
array([1, 2, 3, 1, 2, 3, 1, 2, 3])

>>> a=[[1,2,3],[5,4]]
>>> tile(a,[2,3])
array([[[1, 2, 3], [5, 4], [1, 2, 3], [5, 4], [1, 2, 3], [5, 4]],
       [[1, 2, 3], [5, 4], [1, 2, 3], [5, 4], [1, 2, 3], [5, 4]]])

3.sum函数、argsort函数

sum函数

sum(a, axis=None, dtype=None, out=None, keepdims=<no value>, initial=<no value>)
    Sum of array elements over a given axis.
    
    Parameters
    ----------
    a : array_like
        Elements to sum.
    axis : None or int or tuple of ints, optional
        Axis or axes along which a sum is performed.  The default,
        axis=None, will sum all of the elements of the input array.  If
        axis is negative it counts from the last to the first axis.

    Examples
    --------
    >>> np.sum([0.5, 1.5])
    2.0
    >>> np.sum([0.5, 0.7, 0.2, 1.5], dtype=np.int32)
    1
    >>> np.sum([[0, 1], [0, 5]])
    6
    >>> np.sum([[0, 1], [0, 5]], axis=0)        #axis=0，数组各列元素相加，并返回一个数组
    array([0, 6])         
    >>> np.sum([[0, 1], [0, 5]], axis=1)        #axis=1，数组各行元素相加，并返回一个数组
    array([1, 5])

argsort函数
argsort(a, axis=-1, kind='quicksort', order=None)
    Returns the indices that would sort an array.

    Parameters
    ----------
    a : array_like
        Array to sort.

   Examples
    --------
    One dimensional array:
    
    >>> x = np.array([3, 1, 2])
    >>> np.argsort(x)
    array([1, 2, 0])
    
    Two-dimensional array:
    
    >>> x = np.array([[0, 3], [2, 2]])
    >>> x
    array([[0, 3],
           [2, 2]])
    
    >>> np.argsort(x, axis=0)  # sorts along first axis (down)
    array([[0, 1],
           [1, 0]])
    
    >>> np.argsort(x, axis=1)  # sorts along last axis (across)
    array([[0, 1],
           [0, 1]])

4.字典的get、iteritems函数以及sorted()

dict.get(key, default=None)

key -- 字典中要查找的键。
default -- 如果指定键的值不存在时，返回该默认值值。
返回指定键的值，如果值不在字典中返回默认值None。

dict.iteritems()

　　Return an iterator over the dictionary’s (key, value) pairs.

sorted(...)和operator.itemgetter()

　　operator模块提供的itemgetter函数用于获取对象的哪些维的数据，参数为一些序号（即需要获取的数据在对象中的序号），下面看例子。
　　a = [1,2,3]
　　>>> b=operator.itemgetter(1) //定义函数b，获取对象的第1个域的值
　　>>> b(a)
　　2
　　>>> b=operator.itemgetter(1,0) //定义函数b，获取对象的第1个域和第0个的值
　　>>> b(a)
　　(2, 1)
　　要注意，operator.itemgetter函数获取的不是值，而是定义了一个函数，通过该函数作用到对象上才能获取值。
　　

　　sorted函数

　　sorted(iterable, cmp=None, key=None, reverse=False) --> new sorted list
　　Python内置的排序函数sorted可以对list或者iterator进行排序，官网文档见：http://docs.python.org/2/library/functions.html?highlight=sorted#sorted，该函数原型为：
　　sorted(iterable[, cmp[, key[, reverse]]])
　　参数解释：
　　（1）iterable指定要排序的list或者iterable，不用多说；
　　（2）cmp为函数，指定排序时进行比较的函数，可以指定一个函数或者lambda函数，如：

      　　　students为类对象的list，没个成员有三个域，用sorted进行比较时可以自己定cmp函数，例如这里要通过比较第三个数据成员来排序，代码可以这样写：
     　　　students = [('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
     　　　sorted(students, key=lambda student : student[2])
　　（3）key为函数，指定取待排序元素的哪一项进行排序，函数用上面的例子来说明，代码如下：
       　　 sorted(students, key=lambda student : student[2])
      　　 key指定的lambda函数功能是去元素student的第三个域（即：student[2]），因此sorted排序时，会以students所有元素的第三个域来进行排序。
　　有了上面的operator.itemgetter函数，也可以用该函数来实现，例如要通过student的第三个域排序，可以这么写：
　　sorted(students, key=operator.itemgetter(2))
　　sorted函数也可以进行多级排序，例如要根据第二个域和第三个域进行排序，可以这么写：
　　sorted(students, key=operator.itemgetter(1,2))

　　即先跟句第二个域排序，再根据第三个域排序。
　　（4）reverse参数就不用多说了，是一个bool变量，表示升序还是降序排列，默认为false（升序排列），定义为True时将按降序排列。

利用sorted(...)和operator.itemgetter()就可以对字典按照value进行排序了
dic={'aa':2,'bb':1,'cc':5}
xx=sorted(dic.items(),key=operator.itemgetter(1))
print xx

5.程序2.1 kNN

def classify0(inX,dataSet,labels,k):
    #计算inX到各训练样本的距离
    dataSet_num = dataSet.shape[0]
    distance = (sum((tile(inX,(dataSet_num,1))-dataSet)**2,axis=1))**0.5
    #获取距离前k小的样本所对应的label及其数量
    distance_sort_index = distance.argsort()
    label_num = {}
    for i in range(k):
        label = labels[distance_sort_index[i]]
        label_num[label] = label_num.get(label,0) + 1
    #输出inX预测的类
    sorted_labelnum=sorted(label_num.items(),key=operator.itemgetter(1),reverse=True)
    return sorted_labelnum[0][0]

#2.1 test
import kNN

group,labels = kNN.createDataSet()
test = [0.11,-0.1]
label_result = kNN.classify0(test,group,labels,3)
print label_result

2018-10-28

posted @ 2018-10-28 01:00 bo0814 阅读(57) 评论(0) 收藏举报

刷新页面返回顶部

ML_inAction—Chapetr2--(1) kNN算法实现

公告