摘要: CART(Classification and Regression tree)分类回归树由L.Breiman,J.Friedman,R.Olshen和C.Stone于1984年提出。CART是一棵二叉树,采用二元切分法,每次把数据切成两份,分别进入左子树、右子树。而且每个非叶子节点都有两个孩子,所 阅读全文
posted @ 2018-09-26 12:05 Jin_liang 阅读(2927) 评论(0) 推荐(0) 编辑
摘要: 引言 在这篇文章中,我们将探讨决策树模型的最重要参数,以及它们如何防止过度拟合和欠拟合,并且将尽可能少地进行特征工程。我们将使用来自kaggle的泰坦尼克号数据。 导入数据 查看缺失值 把Cabin’, ‘Name’ and ‘Ticket’移除,并且填充缺失值,并处理分类型变量。 25%用作测试集 阅读全文
posted @ 2018-09-14 00:00 Jin_liang 阅读(15623) 评论(2) 推荐(1) 编辑
摘要: 引言 本文主要是对分类型决策树的一个总结。在分类问题中,决策树可以被看做是if-then规则的结合,也可以认为是在特定特征空间与类空间上的条件概率分布。决策树学习主要分为三个步骤:特征选择、决策树的生成与剪枝操作。本文简单总结ID3和C4.5算法,之后是决策树的修剪。 ID3算法 ID3算法和核心是 阅读全文
posted @ 2018-09-12 23:31 Jin_liang 阅读(3345) 评论(0) 推荐(0) 编辑
摘要: 简介 决策树是广泛用于分类和回归任务的监督模型。 在本文中,我们将讨论决策树分类器以及如何动态可视化它们。 这些分类器在训练数据上构建一系列简单的if / else规则,通过它们预测目标值。 在本演示中,我们将使用sklearn_wine数据集,使用sklearn export_graphviz函数 阅读全文
posted @ 2018-09-08 22:45 Jin_liang 阅读(3685) 评论(0) 推荐(0) 编辑
摘要: 1.基于树的模型比线性模型更好吗? 如果我可以使用逻辑回归解决分类问题和线性回归解决回归问题,为什么需要使用树模型? 我们很多人都有这个问题。 实际上,你可以使用任何算法。 这取决于你要解决的问题类型。 其中有一些关键因素,它们将帮助你决定使用哪种算法: 如果因变量和自变量之间的关系通过线性模型很好 阅读全文
posted @ 2018-09-08 22:29 Jin_liang 阅读(4851) 评论(0) 推荐(0) 编辑
摘要: 简介 简介 基于树的学习算法被认为是最好的和最常用的监督学习方法之一。 基于树的方法赋予预测模型高精度,稳定性和易于解释的能力。 与线性模型不同,它们非常好地映射非线性关系。 它们适用于解决手头的任何问题(分类或回归)。决策树,随机森林,梯度增强等方法正在各种数据科学问题中广泛使用。 因此,对于每个 阅读全文
posted @ 2018-09-08 14:32 Jin_liang 阅读(16188) 评论(0) 推荐(0) 编辑
摘要: 简介 在所有机器学习算法中,k近邻(K-Nearest Neighbors,KNN)相对是比较简单的。 尽管它很简单,但事实证明它在某些任务中非常有效,甚至更好。它可以用于分类和回归问题! 然而,它更常用于分类问题。 在本文中,我们将首先了解KNN算法背后的原理,研究计算点之间距离的不同方法,然后最 阅读全文
posted @ 2018-09-06 20:00 Jin_liang 阅读(2584) 评论(0) 推荐(0) 编辑
摘要: 引言 线性和逻辑回归通常是人们为机器学习和数据科学学习的第一个建模算法。 两者都很棒,因为它们易于使用和解释。 然而,它们固有的简单性也有一些缺点,在许多情况下它们并不是回归模型的最佳选择。 实际上有几种不同类型的回归,每种都有自己的优点和缺点。 在这篇文章中,我们将讨论5种最常见的回归算法及其属性 阅读全文
posted @ 2018-09-05 21:54 Jin_liang 阅读(23625) 评论(0) 推荐(1) 编辑
摘要: 引言 选择用于评估机器学习算法的指标非常重要。度量的选择会影响如何测量和比较机器学习算法的性能。 它们会影响您如何权衡结果中不同特征的重要性以及您选择哪种算法的最终选择。在这篇文章中,您将了解如何使用scikit-learn在Python中选择和使用不同的机器学习性能指标。 回归问题: 平均绝对误差 阅读全文
posted @ 2018-08-27 14:58 Jin_liang 阅读(11090) 评论(0) 推荐(1) 编辑
摘要: 异方差问题 Ordinary Least Squares (OLS) 需要四个 - -有些人说五或六个 - 假设要满足,但建模时我们经常会遇到异方差(Heteroskedasticity)问题, 那是因为,很多数据都表现出这种“异方差性”。我们通常可以直观地解释原因: 随着年龄的增长,净值往往会出现 阅读全文
posted @ 2018-08-26 15:24 Jin_liang 阅读(23026) 评论(0) 推荐(0) 编辑