K-近邻算法

K-近邻算法概述：

　　K-近邻算法就是采用测量不同特征值之间的距离方法来进行分类

　　优点：精度高，对异常值不敏感，无数据输入假设。

　　缺点：计算复杂度高、空间复杂度高。

　　适用于数值型和标称型数据。

对未知类别属性的数据集中的每个点依次执行以下操作：

　　（1）计算已知类别数据集中的点与当前点之间的距离。

　　（2）按照距离递增次序排序。

　　（3）选取与当前点距离最小的 k 个点。

　　（4）确定前 k 个点坐在类别的出现频率。

　　（5）返回前 k 个点出现频率最高的类别作为当前点的预测分类。

以欧式距离为例：

预备知识：

1、numpy 中的 tile() 函数

a = [1,2,3]
b = np.tile(a,3)
c = np.tile(a,(1,3))
d = np.tile(a,(2,3))

运行结果为：

2、python字典当中的 get() 函数

dict.get(key,default=None) 
查找key，如果不存在，则返回默认值None

3、python中的 axis 函数

numpy当中axis的值表示的是这个多维数组维度的下标，比如有一个二维数组a，a的shape是(5,6)，也就是说a有5行6列，axis=0表示的就是[5,6]中的第一维，
也就是行，axis=1表示的是[5,6]中的第二个维度，也就是列。

K-近邻算法代码如下：

import numpy as np
import operator
from sklearn.datasets import load_iris

# 创建数据集
def createDataSet():
    group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels

# shape[a] 当a=0时返回的是数组的行数，当a=1时返回的时数组的列数
def classify(inx,dataset,lables,k):
    # 计算距离
    datasetsize = dataset.shape[0]
    diffmat = np.tile(inx,(datasetsize,1))-dataset
    sqdiffmat = diffmat**2
    sqdistance = sqdiffmat.sum(axis=1)
    distance = sqdistance**0.5
    # 选择距离最小的k个点
    sortdistindicies = distance.argsort()
    classcount={}
    for i in range(k):
        votelable = lables[sortdistindicies[i]]
        classcount[votelable] = classcount.get(votelable,0)+1
        
    '''dict.get(key,default=None) 查找key，如果不存在，则返回默认值None'''
    # 排序
    
    sortedclasscount = sorted(classcount.items(),key=operator.itemgetter(1),reverse=True)
   
    return sortedclasscount

a = classify([0,0,0,0],group,lables,3)
print(a)

结果如下：

代码内各个参数结果如下：

datasetsize = 4
diffmat = [[-1.0,-1.1],[-1.0,-1.0],[0,0],[0,0.01]]
sqdiffmat = [[1,1.21],[1,1],[0,0],[0,0.01]]
distance = [2.21,2,0,0.01] 
sortdistindicies = [2,3,1,0]
classcount = {'B':2,'A':1}
sortedclasscount = [('B',2),('A',1)]

posted @ 2019-07-28 21:15 胡~萝~卜阅读(174) 评论(0) 收藏举报

刷新页面返回顶部

Dylan~Han

K-近邻算法

K-近邻算法概述：

对未知类别属性的数据集中的每个点依次执行以下操作：

以欧式距离为例：

预备知识：

公告