摘要: 支撑向量机,SVM(Support Vector Machine),其实就是一个线性分类器。——图片更加直接,会涉及到正则化 SVM原理 0x01 由决策边界开始 1.1 分类中的“不适定问题” 首先,我们看一个简单的二分类问题。在二维的特征平面中,所有的数据点分为了两类:蓝色圆形和黄色三角。我们的 阅读全文
posted @ 2020-05-04 07:27 Aleliali 阅读(106) 评论(0) 推荐(0) 编辑
摘要: 数据降维在多元中的主要方法有PCA和因子分析(两者应用场景有区别) 我学过多元统计分析,更细化用矩阵思想理解,所以本篇不详细记笔记了 数据降维1:主成分分析法思想及原理 为什么要做主成分分析——变量太多 在很多场景中需要对多变量数据进行观测,在一定程度上增加了数据采集的工作量。更重要的是:多变量之间 阅读全文
posted @ 2020-04-26 23:05 Aleliali 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 学习资料和李航书里的内容学习 学习目标 知识点描述:白盒模型——决策树 学习目标: 决策树相关概念以及模型算法推导 ID3、C4.5、CART决策树代码实现 一、初识决策树-分类方法——一步步分解 用决策树分类:从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点,此时每个子节点 阅读全文
posted @ 2020-04-19 23:25 Aleliali 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 第七周 学习目标 知识点描述:应用广泛的二分类算法——逻辑回归 学习目标: 逻辑回归本质及其数学推导 逻辑回归代码实现与调用 逻辑回归中的决策边界、多项式以及正则化 一、初识逻辑回归 1.介绍 1.1 线性回归能解决分类问题么? 其实,线性回归是不能解决分类问题的。因为我们在使用线性回归模型时,我们 阅读全文
posted @ 2020-04-19 22:41 Aleliali 阅读(386) 评论(0) 推荐(0) 编辑
摘要: 学习目标 sklearn中的Pipeline 偏差与方差 模型正则化之L1正则、L2正则 一、sklearn中的Pipeline 研究一个因变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(Polynomial Regression)。多项式回归是线性回归模型的一种,其回归函数关于回归系 阅读全文
posted @ 2020-04-05 12:29 Aleliali 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 机器学习就是需找一种函数f(x)并进行优化, 且这种函数能够做预测、分类、生成等工作。 关于“如何找到函数f(x)”的方法论。可以看作是机器学习的“三板斧”: 第一步:定义一个函数集合(define a function set)——模型 第二步:判断函数的好坏(goodness of a func 阅读全文
posted @ 2020-04-05 11:07 Aleliali 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 一、简单的线性回归 只有一个自变量(特征);方程是线性的;回归:label为连续数字型 假设我们找到了最佳拟合的直线方程:y = ax + b,则对于每个样本点x_i ,根据我们的直线方程,预测值为:y_i_hat = a*x_i + b 最佳拟合:误差最小(为了方便求导绝对误差改为了平方误差):∑ 阅读全文
posted @ 2020-03-22 21:59 Aleliali 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 学习目标有四个: 无量纲化:最值归一化、均值方差归一化及sklearn中的Scaler 缺失值处理 处理分类型特征:编码与哑变量 处理连续型特征:二值化与分段 一、数据归一化 在量纲不同的情况下,以上的情况,不能反映样本中每一个特征的重要程度。这就需要数据归一化了。 一般来说,我们的解决方案是:把所 阅读全文
posted @ 2020-03-15 23:13 Aleliali 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 如何评价模型的好坏。学习目标有三个:数据拆分:训练数据集&测试数据集(西瓜书第二章) (一)数据拆分的原因:防止过拟合,即只有训练数据在模型中表现好,而之外的数据都会出现拟合较差的情况——泛化能力差 learning目的:寻找泛化误差小的模型,但是又依赖于经验误差——将样本集分为training & 阅读全文
posted @ 2020-03-07 21:35 Aleliali 阅读(223) 评论(0) 推荐(0) 编辑
摘要: KNN 概要: K邻近算法:将输入样本归为最近的K个样本中所属类别最多的一个类 三个基本要素:K的选择,距离的定义,分类决策的规则 K邻近算法的实现(动手构造才能更加理解算法):kd树 用kd树的最邻近搜索: 实现knn_classify: #%%计算原理 from sklearn import d 阅读全文
posted @ 2020-03-01 16:31 Aleliali 阅读(242) 评论(0) 推荐(0) 编辑