摘要: 1 什么是交叉验证(cross validation) 交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证。 1.1 分析 为了让从训练得到模型结 阅读全文
posted @ 2021-09-13 19:30 Trouvaille_fighting 阅读(288) 评论(0) 推荐(0)
摘要: 1 数据集 2 方法 sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto') algorithm(auto,ball_tree, kd_tree, brute) -- 选择什么样的算法进行计算 3 案例实现 导入模 阅读全文
posted @ 2021-09-13 19:10 Trouvaille_fighting 阅读(174) 评论(0) 推荐(0)
摘要: 1 什么是特征预处理 1.1 特征预处理定义 通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程 **为什么:**特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征 **目标:**用到一些方法进行无量纲化 阅读全文
posted @ 2021-09-13 19:03 Trouvaille_fighting 阅读(77) 评论(0) 推荐(0)
摘要: 1 案例:鸢尾花种类预测 Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。 2 scikit-learn中数据集介绍 获取数据集的方式 sklearn.datasets.load_*() 加载小规模数据集 sklearn.datasets.fetch_*(data_home=None,sub 阅读全文
posted @ 2021-09-13 18:38 Trouvaille_fighting 阅读(196) 评论(0) 推荐(0)
摘要: 1 kd树的构建过程【知道】 构造根节点 通过递归的方法,不断地对k维空间进行切分,生成子节点 重复第二步骤,直到子区域中没有示例时终止 需要关注细节:a.选择向量的哪一维进行划分;b.如何划分数据 2 kd树的搜索过程【知道】 二叉树搜索比较待查询节点和分裂节点的分裂维的值,(小于等于就进入左子树 阅读全文
posted @ 2021-09-13 17:35 Trouvaille_fighting 阅读(343) 评论(0) 推荐(0)
摘要: #KNN中K值大小选择对模型的影响【知道】 K值过小: 容易受到异常点的影响 容易过拟合 k值过大: 受到样本均衡的问题 容易欠拟合 阅读全文
posted @ 2021-09-13 17:31 Trouvaille_fighting 阅读(169) 评论(0) 推荐(0)
摘要: 1 欧式距离(Euclidean Distance): 两个点在空间中的距离一般都是指欧氏距离。 举例: X=[[1,1],[2,2],[3,3],[4,4]]; 经计算得: d = 1.4142 2.8284 4.2426 1.4142 2.8284 1.4142 2 曼哈顿距离(Manhatta 阅读全文
posted @ 2021-09-13 17:26 Trouvaille_fighting 阅读(189) 评论(0) 推荐(0)
摘要: 1 Scikit-learn工具介绍 目前稳定版本0.19.1 1.1 安装 pip3 install scikit-learn==0.19.1 查看是否安装成功 import sklearn 注:安装scikit-learn需要Numpy, Scipy等库 1.2 Scikit-learn包含的内 阅读全文
posted @ 2021-09-13 16:22 Trouvaille_fighting 阅读(50) 评论(0) 推荐(0)
摘要: 1 什么是K-近邻算法 1.1 K-近邻算法(KNN)概念 定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 来源:KNN算法最早是由Cover和Hart提出的一种分类算法 距离公式 欧式距离 1.2 电影类型分析 假设我们现 阅读全文
posted @ 2021-09-13 15:57 Trouvaille_fighting 阅读(97) 评论(0) 推荐(0)
摘要: 1 项目描述 背景:Facebook创建了一个虚拟世界,其中包括10公里*10公里共100平方公里的约10万个地方。对于给定的坐标集,您的任务将根据用户的位置,准确性和时间戳等预测用户下一次的签到位置。数据被制作成类似于来自移动设备的位置数据。 目标:预测一个人将要签到的地方 2 数据集介绍 文件说 阅读全文
posted @ 2021-09-13 15:43 Trouvaille_fighting 阅读(339) 评论(0) 推荐(0)
摘要: 1 问题描述 表述当前模型的输入应为二维数组,而得到的是一维数组 2 解决方法 2.1 使用array调整数据的形状,如果如果数据有单个功能或数组,则重新调整形状(-1,1)。如果数据包含单个示例,则重新调整形状(1,-1)。 new_x = np.array(new_x).reshape(1, - 阅读全文
posted @ 2021-09-13 11:21 Trouvaille_fighting 阅读(165) 评论(0) 推荐(0)