随笔分类 -  机器学习之路

摘要:目录 感知机模型 感知机模型的对偶形式 感知机算法实现 感知机模型 感知机是二分类的线性分类模型,输入为实例的特征向量,输出为实例的类别(取+1和-1)。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面,为求得超平面导入了基于误分类的损失函数,利用梯度下降法对损失函数进行最 阅读全文
posted @ 2018-09-27 16:01 Jin_liang 阅读(1597) 评论(0) 推荐(0)
摘要:CART(Classification and Regression tree)分类回归树由L.Breiman,J.Friedman,R.Olshen和C.Stone于1984年提出。CART是一棵二叉树,采用二元切分法,每次把数据切成两份,分别进入左子树、右子树。而且每个非叶子节点都有两个孩子,所 阅读全文
posted @ 2018-09-26 12:05 Jin_liang 阅读(3031) 评论(0) 推荐(0)
摘要:引言 在这篇文章中,我们将探讨决策树模型的最重要参数,以及它们如何防止过度拟合和欠拟合,并且将尽可能少地进行特征工程。我们将使用来自kaggle的泰坦尼克号数据。 导入数据 查看缺失值 把Cabin’, ‘Name’ and ‘Ticket’移除,并且填充缺失值,并处理分类型变量。 25%用作测试集 阅读全文
posted @ 2018-09-14 00:00 Jin_liang 阅读(16580) 评论(2) 推荐(1)
摘要:引言 本文主要是对分类型决策树的一个总结。在分类问题中,决策树可以被看做是if-then规则的结合,也可以认为是在特定特征空间与类空间上的条件概率分布。决策树学习主要分为三个步骤:特征选择、决策树的生成与剪枝操作。本文简单总结ID3和C4.5算法,之后是决策树的修剪。 ID3算法 ID3算法和核心是 阅读全文
posted @ 2018-09-12 23:31 Jin_liang 阅读(3425) 评论(0) 推荐(0)
摘要:简介 决策树是广泛用于分类和回归任务的监督模型。 在本文中,我们将讨论决策树分类器以及如何动态可视化它们。 这些分类器在训练数据上构建一系列简单的if / else规则,通过它们预测目标值。 在本演示中,我们将使用sklearn_wine数据集,使用sklearn export_graphviz函数 阅读全文
posted @ 2018-09-08 22:45 Jin_liang 阅读(3972) 评论(0) 推荐(0)
摘要:1.基于树的模型比线性模型更好吗? 如果我可以使用逻辑回归解决分类问题和线性回归解决回归问题,为什么需要使用树模型? 我们很多人都有这个问题。 实际上,你可以使用任何算法。 这取决于你要解决的问题类型。 其中有一些关键因素,它们将帮助你决定使用哪种算法: 如果因变量和自变量之间的关系通过线性模型很好 阅读全文
posted @ 2018-09-08 22:29 Jin_liang 阅读(5052) 评论(0) 推荐(0)
摘要:简介 简介 基于树的学习算法被认为是最好的和最常用的监督学习方法之一。 基于树的方法赋予预测模型高精度,稳定性和易于解释的能力。 与线性模型不同,它们非常好地映射非线性关系。 它们适用于解决手头的任何问题(分类或回归)。决策树,随机森林,梯度增强等方法正在各种数据科学问题中广泛使用。 因此,对于每个 阅读全文
posted @ 2018-09-08 14:32 Jin_liang 阅读(16508) 评论(0) 推荐(0)
摘要:简介 在所有机器学习算法中,k近邻(K-Nearest Neighbors,KNN)相对是比较简单的。 尽管它很简单,但事实证明它在某些任务中非常有效,甚至更好。它可以用于分类和回归问题! 然而,它更常用于分类问题。 在本文中,我们将首先了解KNN算法背后的原理,研究计算点之间距离的不同方法,然后最 阅读全文
posted @ 2018-09-06 20:00 Jin_liang 阅读(2768) 评论(0) 推荐(0)
摘要:引言 线性和逻辑回归通常是人们为机器学习和数据科学学习的第一个建模算法。 两者都很棒,因为它们易于使用和解释。 然而,它们固有的简单性也有一些缺点,在许多情况下它们并不是回归模型的最佳选择。 实际上有几种不同类型的回归,每种都有自己的优点和缺点。 在这篇文章中,我们将讨论5种最常见的回归算法及其属性 阅读全文
posted @ 2018-09-05 21:54 Jin_liang 阅读(25091) 评论(0) 推荐(1)
摘要:引言 选择用于评估机器学习算法的指标非常重要。度量的选择会影响如何测量和比较机器学习算法的性能。 它们会影响您如何权衡结果中不同特征的重要性以及您选择哪种算法的最终选择。在这篇文章中,您将了解如何使用scikit-learn在Python中选择和使用不同的机器学习性能指标。 回归问题: 平均绝对误差 阅读全文
posted @ 2018-08-27 14:58 Jin_liang 阅读(11489) 评论(0) 推荐(1)
摘要:异方差问题 Ordinary Least Squares (OLS) 需要四个 - -有些人说五或六个 - 假设要满足,但建模时我们经常会遇到异方差(Heteroskedasticity)问题, 那是因为,很多数据都表现出这种“异方差性”。我们通常可以直观地解释原因: 随着年龄的增长,净值往往会出现 阅读全文
posted @ 2018-08-26 15:24 Jin_liang 阅读(23748) 评论(0) 推荐(0)
摘要:简介 Logistic回归是一种机器学习分类算法,用于预测分类因变量的概率。 在逻辑回归中,因变量是一个二进制变量,包含编码为1(是,成功等)或0(不,失败等)的数据。 换句话说,逻辑回归模型预测P(Y = 1)是X的函数。 数据 该数据集来自UCI机器学习库,它与葡萄牙银行机构的直接营销活动(电话 阅读全文
posted @ 2018-08-25 23:53 Jin_liang 阅读(17223) 评论(0) 推荐(0)
摘要:目录 1.层次聚类的原理 2.层次聚类优缺点 3.聚类实例 1.层次聚类的原理 层次聚类可以分为两种主要类型:凝聚型(agglomerative)和分裂型(divisive)。 1.凝聚聚类:它也被称为AGNES(凝聚嵌套)。 它以自下而上的方式工作。 也就是说,每个对象最初被认为是单元素簇(叶子) 阅读全文
posted @ 2018-08-24 09:50 Jin_liang 阅读(8372) 评论(0) 推荐(0)
摘要:目录 一.k均值简介 二.应用简介 三.算法 四.选择合适的K 五.具体实例 目录 一.k均值简介 二.应用简介 三.算法 四.选择合适的K 五.具体实例 目录 一.k均值简介 二.应用简介 三.算法 四.选择合适的K 五.具体实例 目录 一.k均值简介 二.应用简介 三.算法 四.选择合适的K 五 阅读全文
posted @ 2018-08-22 23:14 Jin_liang 阅读(16352) 评论(1) 推荐(0)
摘要:目录 一.归一化 1.1 最小最大值标准化(MinMaxScaler) 1.2绝对值最大标准化( MaxAbsScaler) 1.1 最小最大值标准化(MinMaxScaler) 1.2绝对值最大标准化( MaxAbsScaler) 二.标准化 2.1 零均值单位方差(scale) 2.2 训练数据 阅读全文
posted @ 2018-08-14 23:05 Jin_liang 阅读(539) 评论(0) 推荐(0)
摘要:目录 一.预处理 二.缺失值的处理 三.格式的转换 四.异常值的处理 一.预处理 1.1.列名称的修改 像下面这样,我们就完成了两个列的重命名,而其余的列名保持不变 1.2.添加index 有的时候数据的index是0,1,2……这样的数字,我们需要修改为日期格式,date必须是数据里一个serie 阅读全文
posted @ 2018-08-14 00:04 Jin_liang 阅读(632) 评论(0) 推荐(0)