机器学习随笔01 - k近邻算法

算法名称: k近邻算法 (kNN: k-Nearest Neighbor)

问题提出: 根据已有对象的归类数据，给新对象(事物)归类。

核心思想:

重要前提: 需要有一批已经正确归类了的对象存在。也就是通常说的训练数据。

重要优势:

重大缺陷:

现实范例: 给电影分类。

算法过程:

扩展范例: 手写识别

列出这个范例的原因是，乍一看，手写识别和对象归类没有关系。但是实际上是有关系的。为了简化问题，我们把范围缩小一点，变成手写识别数字。通过回答下面几个问题，就能知道如何套用kNN算法了。

已知对象和待检测对象是什么? 回答: 已知对象：系统中存储的预先采集到的手写输入内容，待检测对象：用户的每一次手写输入内容。
输入内容具体是什么? 如何特征化? 回答: 将输入面看做一个二维矩阵，笔迹扫过的地方是1，其它地方是0。这个矩阵得有大小，可以自己确定，比如32*64, 64*128等. 特征就是这个矩阵中的所有位置。也就是说，这个矩阵包含多少个点，就算有多少个特征。
每个特征的值是什么? 既然特征表示的是矩阵中特定位置的点，那么特征的值就是这个位置的矩阵元素，为0或者为1
如何构成坐标? 回答:将矩阵所有行按顺序连接起来，构成一个巨长的行，这就是对象的坐标

扩展思维:

更多信息，请参考:https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

posted @ 2015-07-21 10:10 太初有道阅读(178) 评论(0) 收藏举报

刷新页面返回顶部

太初有道