实验二 K-近邻算法及应用

名称
内容
博客班级 班级链接
作业要求 作业链接
学号 3180701105

一.实验目的

1.理解K-近邻算法原理,能实现算法K近邻算法;
2.掌握常见的距离度量方法;
3.掌握K近邻树实现算法;
4.针对特定应用场景及数据,能应用K近邻解决实际问题。

二.实验内容

1.实现曼哈顿距离、欧氏距离、闵式距离算法,并测试算法正确性。
2.实现K近邻树算法;
3.针对iris数据集,应用sklearn的K近邻算法进行类别预测。
4.针对iris数据集,编制程序使用K近邻树进行类别预测。

三.实验报告要求

1.对照实验内容,撰写实验过程、算法及测试结果;
2.代码规范化:命名规则、注释;
3.分析核心算法的复杂度;
4.查阅文献,讨论K近邻的优缺点;
5.举例说明K近邻的应用场景。

四.实验内容及结果展示

1、距离度量

import math
from itertools import combinations

p = 1 曼哈顿距离
p = 2 欧氏距离
p = inf 闵式距离minkowski_distance

def L(x, y, p=2):
 # x1 = [1, 1], x2 = [5,1]
 if len(x) == len(y) and len(x) > 1:
 sum = 0
 for i in range(len(x)):
 sum += math.pow(abs(x[i] - y[i]), p)
 return math.pow(sum, 1/p)
 else:
 return 0
# 课本例3.1
x1 = [1, 1]
x2 = [5, 1]
x3 = [4, 4]
# x1, x2
for i in range(1, 5):
 r = { '1-{}'.format(c):L(x1, c, p=i) for c in [x2, x3]}
 print(min(zip(r.values(), r.keys())))

输出结果:
(4.0, '1-[5, 1]')
(4.0, '1-[5, 1]')
(3.7797631496846193, '1-[4, 4]')
(3.5676213450081633, '1-[4, 4]')

2、算法实现

python实现,遍历所有数据点,找出n个距离最近的点的分类情况,少数服从多数

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from collections import Counter
# data
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['label'] = iris.target
df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
# data = np.array(df.iloc[:100, [0, 1, -1]])
df

输出结果:
0 5.1 3.5 1.4 0.2 0
1 4.9 3.0 1.4 0.2 0
2 4.7 3.2 1.3 0.2 0
3 4.6 3.1 1.5 0.2 0
4 5.0 3.6 1.4 0.2 0
5 5.4 3.9 1.7 0.4 0
6 4.6 3.4 1.4 0.3 0
7 5.0 3.4 1.5 0.2 0
8 4.4 2.9 1.4 0.2 0
9 4.9 3.1 1.5 0.1 0
10 5.4 3.7 1.5 0.2 0
11 4.8 3.4 1.6 0.2 0
12 4.8 3.0 1.4 0.1 0
13 4.3 3.0 1.1 0.1 0
14 5.8 4.0 1.2 0.2 0
15 5.7 4.4 1.5 0.4 0
16 5.4 3.9 1.3 0.4 0
17 5.1 3.5 1.4 0.3 0
18 5.7 3.8 1.7 0.3 0
19 5.1 3.8 1.5 0.3 0
20 5.4 3.4 1.7 0.2 0
21 5.1 3.7 1.5 0.4 0
22 4.6 3.6 1.0 0.2 0
23 5.1 3.3 1.7 0.5 0
24 4.8 3.4 1.9 0.2 0
25 5.0 3.0 1.6 0.2 0
26 5.0 3.4 1.6 0.4 0
27 5.2 3.5 1.5 0.2 0
28 5.2 3.4 1.4 0.2 0
29 4.7 3.2 1.6 0.2 0
... ... ... ... ... ...
120 6.9 3.2 5.7 2.3 2
121 5.6 2.8 4.9 2.0 2
122 7.7 2.8 6.7 2.0 2
123 6.3 2.7 4.9 1.8 2
124 6.7 3.3 5.7 2.1 2
125 7.2 3.2 6.0 1.8 2
126 6.2 2.8 4.8 1.8 2
127 6.1 3.0 4.9 1.8 2
128 6.4 2.8 5.6 2.1 2
129 7.2 3.0 5.8 1.6 2
130 7.4 2.8 6.1 1.9 2
131 7.9 3.8 6.4 2.0 2
132 6.4 2.8 5.6 2.2 2
133 6.3 2.8 5.1 1.5 2
134 6.1 2.6 5.6 1.4 2
135 7.7 3.0 6.1 2.3 2
136 6.3 3.4 5.6 2.4 2
137 6.4 3.1 5.5 1.8 2
138 6.0 3.0 4.8 1.8 2
139 6.9 3.1 5.4 2.1 2
140 6.7 3.1 5.6 2.4 2
141 6.9 3.1 5.1 2.3 2
142 5.8 2.7 5.1 1.9 2
143 6.8 3.2 5.9 2.3 2
144 6.7 3.3 5.7 2.5 2
145 6.7 3.0 5.2 2.3 2
146 6.3 2.5 5.0 1.9 2
147 6.5 3.0 5.2 2.0 2
148 6.2 3.4 5.4 2.3 2
149 5.9 3.0 5.1 1.8 2

plt.scatter(df[:50]['sepal length'], df[:50]['sepal width'], label='0')
plt.scatter(df[50:100]['sepal length'], df[50:100]['sepal width'], label='1')
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend()

输出结果:

data = np.array(df.iloc[:100, [0, 1, -1]])
X, y = data[:,:-1], data[:,-1]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
class KNN:
 def __init__(self, X_train, y_train, n_neighbors=3, p=2):
 """
 parameter: n_neighbors 临近点个数
 parameter: p 距离度量
 """
 self.n = n_neighbors
 self.p = p
 self.X_train = X_train
 self.y_train = y_train
 
 def predict(self, X):
 # 取出n个点
 knn_list = []
 for i in range(self.n):
 dist = np.linalg.norm(X - self.X_train[i], ord=self.p)
 knn_list.append((dist, self.y_train[i]))
 
 for i in range(self.n, len(self.X_train)):
 max_index = knn_list.index(max(knn_list, key=lambda x: x[0]))
 dist = np.linalg.norm(X - self.X_train[i], ord=self.p)
 if knn_list[max_index][0] > dist:
 knn_list[max_index] = (dist, self.y_train[i])
 
 # 统计
 knn = [k[-1] for k in knn_list]
 count_pairs = Counter(knn)
 max_count = sorted(count_pairs, key=lambda x:x)[-1]
 return max_count
 
 def score(self, X_test, y_test):
 right_count = 0
 n = 10
 for X, y in zip(X_test, y_test):
 label = self.predict(X)
 if label == y:
 right_count += 1
 return right_count / len(X_test)
clf = KNN(X_train, y_train)
clf.score(X_test, y_test)

输出结果:1.0

test_point = [6.0, 3.0]
print('Test Point: {}'.format(clf.predict(test_point)))

输出结果:Test Point: 1.0

plt.scatter(df[:50]['sepal length'], df[:50]['sepal width'], label='0')
plt.scatter(df[50:100]['sepal length'], df[50:100]['sepal width'], label='1')
plt.plot(test_point[0], test_point[1], 'bo', label='test_point')
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend()

输出结果:

3、使用scikitlearn

sklearn.neighbors.KNeighborsClassifier
n_neighbors: 临近点个数
p: 距离度量
algorithm: 近邻算法,可选{'auto', 'ball_tree', 'kd_tree', 'brute'}
weights: 确定近邻的权重

from sklearn.neighbors import KNeighborsClassifier
clf_sk = KNeighborsClassifier()
clf_sk.fit(X_train, y_train)

输出结果:
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
metric_params=None, n_jobs=1, n_neighbors=5, p=2,
weights='uniform')

clf_sk.score(X_test, y_test)

输出结果:1.0

4、KD树

# kd-tree每个结点中主要包含的数据结构如下
class KdNode(object):
 def __init__(self, dom_elt, split, left, right):
 self.dom_elt = dom_elt # k维向量节点(k维空间中的一个样本点)
 self.split = split # 整数(进行分割维度的序号)
 self.left = left # 该结点分割超平面左子空间构成的kd-tree
 self.right = right # 该结点分割超平面右子空间构成的kd-tree
class KdTree(object):
 def __init__(self, data):
 k = len(data[0]) # 数据维度
 
 def CreateNode(split, data_set): # 按第split维划分数据集exset创建KdNode
 if not data_set: # 数据集为空
 return None
 # key参数的值为一个函数,此函数只有一个参数且返回一个值用来进行比较
 # operator模块提供的itemgetter函数用于获取对象的哪些维的数据,参数为需要获取的数据在对象
 #data_set.sort(key=itemgetter(split)) # 按要进行分割的那一维数据排序
 data_set.sort(key=lambda x: x[split])
 split_pos = len(data_set) // 2 # //为Python中的整数除法
 median = data_set[split_pos] # 中位数分割点 
 split_next = (split + 1) % k # cycle coordinates
 
 # 递归的创建kd树
 return KdNode(median, split, 
 CreateNode(split_next, data_set[:split_pos]), # 创建左子树
 CreateNode(split_next, data_set[split_pos + 1:])) # 创建右子树
 
 self.root = CreateNode(0, data) # 从第0维分量开始构建kd树,返回根节点
# KDTree的前序遍历
def preorder(root): 
 print (root.dom_elt) 
 if root.left: # 节点不为空
 preorder(root.left) 
 if root.right: 
 preorder(root.right)
# 对构建好的kd树进行搜索,寻找与目标点最近的样本点:
from math import sqrt
from collections import namedtuple
# 定义一个namedtuple,分别存放最近坐标点、最近距离和访问过的节点数
result = namedtuple("Result_tuple", "nearest_point nearest_dist nodes_visited")
 
def find_nearest(tree, point):
 k = len(point) # 数据维度
 def travel(kd_node, target, max_dist):
 if kd_node is None: 
 return result([0] * k, float("inf"), 0) # python中用float("inf")和float("-inf")表示正负
 nodes_visited = 1
 
 s = kd_node.split # 进行分割的维度
 pivot = kd_node.dom_elt # 进行分割的“轴”
 
 if target[s] <= pivot[s]: # 如果目标点第s维小于分割轴的对应值(目标离左子树更近)
 nearer_node = kd_node.left # 下一个访问节点为左子树根节点
 further_node = kd_node.right # 同时记录下右子树
 else: # 目标离右子树更近
 nearer_node = kd_node.right # 下一个访问节点为右子树根节点
 further_node = kd_node.left
 temp1 = travel(nearer_node, target, max_dist) # 进行遍历找到包含目标点的区域
 
 nearest = temp1.nearest_point # 以此叶结点作为“当前最近点”
 dist = temp1.nearest_dist # 更新最近距离
 
 nodes_visited += temp1.nodes_visited 
 if dist < max_dist: 
 max_dist = dist # 最近点将在以目标点为球心,max_dist为半径的超球体内
 
 temp_dist = abs(pivot[s] - target[s]) # 第s维上目标点与分割超平面的距离
 if max_dist < temp_dist: # 判断超球体是否与超平面相交
 return result(nearest, dist, nodes_visited) # 不相交则可以直接返回,不用继续判断
 
 #---------------------------------------------------------------------- 
 # 计算目标点与分割点的欧氏距离 
 temp_dist = sqrt(sum((p1 - p2) ** 2 for p1, p2 in zip(pivot, target))) 
 
 if temp_dist < dist: # 如果“更近”
 nearest = pivot # 更新最近点
 dist = temp_dist # 更新最近距离
 max_dist = dist # 更新超球体半径
 
 # 检查另一个子结点对应的区域是否有更近的点
 temp2 = travel(further_node, target, max_dist) 
 
 nodes_visited += temp2.nodes_visited
 if temp2.nearest_dist < dist: # 如果另一个子结点内存在更近距离
 nearest = temp2.nearest_point # 更新最近点
 dist = temp2.nearest_dist # 更新最近距离
 return result(nearest, dist, nodes_visited)
 return travel(tree.root, point, float("inf")) # 从根节点开始递归
data = [[2,3],[5,4],[9,6],[4,7],[8,1],[7,2]]
kd = KdTree(data)
preorder(kd.root)

输出结果:
[7, 2]
[5, 4]
[2, 3]
[4, 7]
[9, 6]
[8, 1]

from time import clock
from random import random
# 产生一个k维随机向量,每维分量值在0~1之间
def random_point(k):
 return [random() for _ in range(k)]
# 产生n个k维随机向量
def random_points(k, n):
 return [random_point(k) for _ in range(n)] 
ret = find_nearest(kd, [3,4.5])
print (ret)

输出结果:

N = 400000
t0 = clock()
kd2 = KdTree(random_points(3, N)) # 构建包含四十万个3维空间样本点的kd树
ret2 = find_nearest(kd2, [0.1,0.5,0.8]) # 四十万个样本点中寻找离目标最近的点
t1 = clock()
print ("time: ",t1-t0, "s")
print (ret2)

输出结果:
time: 7.299844505209247 s
Result_tuple(nearest_point=[0.10505669630674175, 0.49542598718931097, 0.803316691954
3026], nearest_dist=0.007582362181450973, nodes_visited=53)

五.实验小结

psp2.1 任务内容 计划需要完成的时间(min 实际完成需要的时间(min)
Planning 计划 300 360
Estimate 估计这个任务需要多少时间,并规划大致工作步骤 360 360
Development 开发 20 15
Analysis 需求分析(包括学习新技术) 30 30
Design Spec 生成设计文档 40 30
Design Review 设计复审 30 30
Coding Standard 代码规范 20 15
Design 具体设计 20 10
Coding 具体编码 100 120
Code Review 代码复审 10 20
Test 测试(自我测试,修改代码,提交修改) 10 15
Reporting 报告 20 20
Test Report 测试报告 20 15
Size Measurement 计算工作量 20 10
Postmortem & Process Improvement Plan 事后总结,并提出过程改进计划 20 20

K近邻算法优缺点:
算法优点:
(1)简单,易于理解,易于实现,无需估计参数。
(2)训练时间为零。它没有显示的训练,不像其它有监督的算法会用训练集train一个模型(也就是拟合一个函数),然后验证集或测试集用该模型分类。KNN只是把样本保存起来,收到测试数据时再处理,所以KNN训练时间为零。
(3)KNN可以处理分类问题,同时天然可以处理多分类问题,适合对稀有事件进行分类。
(4)特别适合于多分类问题(multi-modal,对象具有多个类别标签), KNN比SVM的表现要好。
(5)KNN还可以处理回归问题,也就是预测。
(6)和朴素贝叶斯之类的算法比,对数据没有假设,准确度高,对异常点不敏感。
算法缺点:
(1)计算量太大,尤其是特征数非常多的时候。每一个待分类文本都要计算它到全体已知样本的距离,才能得到它的第K个最近邻点。
(2)可理解性差,无法给出像决策树那样的规则。
(3)是慵懒散学习方法,基本上不学习,导致预测时速度比起逻辑回归之类的算法慢。
(4)样本不平衡的时候,对稀有类别的预测准确率低。当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。(5)对训练数据依赖度特别大,对训练数据的容错性太差。如果训练数据集中,有一两个数据是错误的,刚刚好又在需要分类的数值的旁边,这样就会直接导致预测的数据的不准确。

K近邻算法的应用场景:
k近邻算法应该是目前工业上还会使用最为简单的算法,并且使用起来也很简单、方便,但是有个前提是数据量不能过大,更不能使用有维数诅咒的数据集。

posted @ 2021-05-21 15:45  FYTSIX  阅读(87)  评论(0)    收藏  举报