随笔分类 -  机器学习

摘要:概要 在 sklearn 包中,OneHotEncoder 函数非常实用,它可以实现将分类特征的每个元素转化为一个可以用来计算的值。本篇详细讲解该函数的用法,也可以参考官网 sklearn.preprocessing.OneHotEncoder。 解析 该函数在 sklearn.preprocess 阅读全文
posted @ 2018-06-09 16:28 小鱼吻水 阅读(75329) 评论(10) 推荐(10)
摘要:概要 基于 sklearn 包自带的 iris 数据集,了解一下分类树的各种参数设置以及代表的意义。   iris 数据集介绍 iris 数据集包含 150 个样本,对应数据集的每行数据,每行数据包含每个样本的四个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度)和样本的类别信息,所以 iri 阅读全文
posted @ 2018-04-19 19:54 小鱼吻水 阅读(4774) 评论(0) 推荐(1)
摘要:概要 本部分介绍 CART,是一种非常重要的机器学习算法。   基本原理   CART 全称为 Classification And Regression Trees,即分类回归树。顾名思义,该算法既可以用于分类还可以用于回归。 克服了 ID3 算法只能处理离散型数据的缺点,CA 阅读全文
posted @ 2018-04-09 14:29 小鱼吻水 阅读(4845) 评论(0) 推荐(0)
摘要:概要 决策树也是我们经常使用的样本归类算法。简单来说,它就是 if else 的判断集合,本文就详细介绍其原理,还有例子实现。依然参考《机器学习实战》。   基本理论   决策树是通过一系列规则对数据进行分类的过程。 决策树利用了概率论的原理,不断地将数据切分成小数据集,直到所有 阅读全文
posted @ 2018-04-09 14:28 小鱼吻水 阅读(408) 评论(0) 推荐(0)
摘要:概要 分类的目标是标称型数据,而回归将会对连续型的数据做出预测。依然参考《机器学习实战》第 $8$ 章,总结一下总有收获。 其中有谈到方差和偏差的概念,腾讯 2018 春招笔试第一大题就是关于这个的。Here we go!   "线性回归" "局部加权回归" "岭回归" "lasso" " 阅读全文
posted @ 2018-04-06 20:57 小鱼吻水 阅读(588) 评论(0) 推荐(0)
摘要:概要 先前我们实现了 "基础版本" 的 SVM,现在我们来实现进阶版本。和上次比,这次优化的地方在于: 启发式选择参数 alpha(训练速度更快) 。通过一个外循环来选择第一个 alpha 值,并且其选择过程中会在两种方式间进行交替:一种方式是在所有数据集上进行单遍扫描,另一种方式则是在非边界(不等 阅读全文
posted @ 2018-04-03 22:15 小鱼吻水 阅读(508) 评论(0) 推荐(0)
摘要:概要 已经学习了 "支持向量机相关理论" ,怎么能不应用一下下呢?本部分就参考机器学习实战中相关章节,实现支持向量机。   简单版本的支持向量机 数据集   我们所用的数据集,正是机器学习实战中相关的分类数据集,因为是二维的,可以做可视化,对刚开始入门的实现算法来说非常友好。原始 阅读全文
posted @ 2018-04-02 20:21 小鱼吻水 阅读(1132) 评论(0) 推荐(0)
摘要:概要 把常用的机器学习算法:$k$ 近邻算法、朴素贝叶斯、逻辑回归、$K$ 均值聚类其思想有及 python 代码实现总结一下。做到既要知其然又要知其所以然。参考《机器学习实战》。     $k$ 近邻算法   基本原理   $k$ 近邻算法是分类数据最简单有 阅读全文
posted @ 2018-03-26 18:11 小鱼吻水 阅读(843) 评论(0) 推荐(1)
摘要:支持向量机很是重要,网上也有很好的学习材料。本篇主要参考支持向量机通俗导论,自己重新理一遍,希望能有所收获。 阅读全文
posted @ 2018-03-24 20:15 小鱼吻水 阅读(621) 评论(0) 推荐(1)