【TensorFlow入门完全指南】模型篇·最近邻模型

最近邻模型,更为常见的是k-最近邻模型,是一种常见的机器学习模型,原理如下:

KNN算法的前提是存在一个样本的数据集,每一个样本都有自己的标签,表明自己的类型。现在有一个新的未知的数据,需要判断它的类型。那么通过计算新未知数据与已有的数据集中每一个样本的距离,然后按照从近到远排序。取前K个最近距离的样本,来判断新数据的类型。

import相关库,记载数据(当然正常情况下不是这么加载的),指定了5000个样本用来训练,200个样本用来测试。

然后下面分别定义了训练和测试的计算图的输入。

算法很简单,第一行代码就完成了,设定距离为L1范数,然后第二行代码取出了距离最近的,归入那一组。

初始所有变量。

因为这个算法根本就没有得到训练的可能,所以这个代码只能用来估测准确度。

将所有的数据测试一遍,对,训练集的用处只是用来给出一个已有的坐标,测试集只是用来测试准确率而已。

这个算法的进化版是k-NN,K值的选取对类别的判断具有较大的影响,K的选择目前没有很好的办法,经验规则K值一般低于训练样本的开平方。

posted @ 2017-07-20 17:23  ldzhangyx  阅读(343)  评论(0编辑  收藏  举报