2019 年 8月 10 日随笔档案 - Austin_anheqiao

2019年8月10日

摘要： KD树算法是先对数据集进行建模，然后搜索最近邻，最后一步是预测。 KD树中的K指的是样本特征的维数。一、KD树的建立 m个样本n维特征，计算n个特征的方差，取方差最大的第k维特征作为根节点。选择第k维特征的中位数作为切分点，小于中位数的放左子树，大于中位数的放右子树，递归生成。举例有二维样本6 阅读全文

posted @ 2019-08-10 22:18 Austin_anheqiao 阅读(1397) 评论(0) 推荐(0)

KNN

摘要：一、原理选择距离测试样本最近的k个样本，出现频数最大的样本的类别就是该测试样本的类别。二、优缺点它的特点是完全跟着数据走，没有数学模型可言。优点：简单、快速、易于实现；缺点：计算量大，数据不平衡时预测偏差比较大；三、不平衡问题怎么解决？数据不平衡时，距离测试样本最近的k个样本中，可能大阅读全文

posted @ 2019-08-10 21:57 Austin_anheqiao 阅读(241) 评论(0) 推荐(0)

SVM

摘要：一、原理就是在样本空间中找到一个最佳的超平面使得正负样本间隔最大。SVM是二分类问题，引入核函数后就可以解决非线性问题。二、为什么采用间隔最大化因为可能存在多个超平面能够将正负样本分开，利用间隔最大化得到的超平面是唯一的，泛化能力最强。三、为什么要转化为对偶问题？ 1、通过约束条件进行求解，阅读全文

posted @ 2019-08-10 20:57 Austin_anheqiao 阅读(313) 评论(0) 推荐(0)

keep going!~

苦尽甘来定不负生而善之

公告

keep going!~

苦尽甘来 定不负生而善之

公告

苦尽甘来定不负生而善之