摘要:1.原理 K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。 2、api 3、性能评估 越接近1越好,一般不超过0.7 4、优缺点 优点 1)原理比较简单,实现也是很容易,收敛速度快。 2)聚类效果较
阅读全文
posted @ 2020-10-05 16:21
|
|||
随笔分类 - 机器学习
摘要:1.原理 K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。 2、api 3、性能评估 越接近1越好,一般不超过0.7 4、优缺点 优点 1)原理比较简单,实现也是很容易,收敛速度快。 2)聚类效果较
阅读全文
posted @ 2020-10-05 16:21
摘要:一、线性回归 1.api 2、性能评估 3、案例(波士顿房价预测) 代码: from sklearn.datasets import load_boston from sklearn.model_selection import train_test_split from sklearn.prepr
阅读全文
posted @ 2020-10-04 17:52
摘要:一、k-近邻算法 1、工作机制: 给定一个测试样本 计算它到训练样本的距离 取离测试样本最近的k个训练样本 “投票法”选出在这k个样本中出现最多的类别,就是预测的结果 2、计算距离公式(欧式距离) 3、api 4、优缺点 5、使用交叉验证和网格搜索对k近邻算法调优 1)交叉验证 1. 目的 交叉验证
阅读全文
posted @ 2020-09-28 12:45
摘要:一、机器学习算法分类 二、开发流程 三、scikit-learn操作数据 1、数据集 2、数据分割 代码: from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split li =
阅读全文
posted @ 2020-09-27 18:53
摘要:一、数据特征提取 1、安装依赖库 pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple Scikit-learn 注意:安装Scikit-learn前需先安装numpy和pandas 2、字典特征数据抽取 from sklearn.feat
阅读全文
posted @ 2020-09-26 21:51
|
|||