统计学习方法 3 K近邻

原理

K近邻，对于一个点，求和它数量最近的K的元素的类别，以此推断它的类别

用较小的邻域进行预测。预测结果对邻近的实例点非常敏感。如果邻近的实例点恰好是噪声，预测就会出错。

用较大的邻域进行预测。对于输入实例较远的（已经不太相似）的样本点也会对预测起作用，使预测发生错误。

在应用中，一般先取一个较小的K值，再通过交叉验证法来选取最有的K值

按多数的类型来决定应分到的类别

也可以定义一个损失函数，其含义为一个以待测点为中心的圆中，分类错误的个数

损失函数为

\[\frac{1}{k}\sum_{x_i \in N_k(x)}I(y_i \neq c_j) \]

以下图为例：

此时实心圆内都判断为红色的损失值（0+0+1）*1/3 = 1/3

实心圆内都判断为蓝色的损失值（0+1+1）*2/3 = 2/3

KD树通过分割平面来保证最高效率地查找（从近到远）

posted @ 2021-09-19 21:41 笑云博文阅读(51) 评论(0) 收藏举报

刷新页面返回顶部