Aleliali

2020年5月4日

摘要：支撑向量机，SVM(Support Vector Machine)，其实就是一个线性分类器。——图片更加直接，会涉及到正则化 SVM原理 0x01 由决策边界开始 1.1 分类中的“不适定问题” 首先，我们看一个简单的二分类问题。在二维的特征平面中，所有的数据点分为了两类：蓝色圆形和黄色三角。我们的阅读全文

posted @ 2020-05-04 07:27 Aleliali 阅读(106) 评论(0) 推荐(0) 编辑

2020年4月26日

ML_9 数据降维

摘要：数据降维在多元中的主要方法有PCA和因子分析（两者应用场景有区别）我学过多元统计分析，更细化用矩阵思想理解，所以本篇不详细记笔记了数据降维1：主成分分析法思想及原理为什么要做主成分分析——变量太多在很多场景中需要对多变量数据进行观测，在一定程度上增加了数据采集的工作量。更重要的是：多变量之间阅读全文

posted @ 2020-04-26 23:05 Aleliali 阅读(192) 评论(0) 推荐(0) 编辑

2020年4月19日

ML_8 决策树

摘要：学习资料和李航书里的内容学习学习目标知识点描述：白盒模型——决策树学习目标：决策树相关概念以及模型算法推导 ID3、C4.5、CART决策树代码实现一、初识决策树-分类方法——一步步分解用决策树分类：从根节点开始，对实例的某一特征进行测试，根据测试结果将实例分配到其子节点，此时每个子节点阅读全文

posted @ 2020-04-19 23:25 Aleliali 阅读(217) 评论(0) 推荐(0) 编辑

ML_7 logit回归

摘要：第七周学习目标知识点描述：应用广泛的二分类算法——逻辑回归学习目标：逻辑回归本质及其数学推导逻辑回归代码实现与调用逻辑回归中的决策边界、多项式以及正则化一、初识逻辑回归 1.介绍 1.1 线性回归能解决分类问题么？其实，线性回归是不能解决分类问题的。因为我们在使用线性回归模型时，我们阅读全文

posted @ 2020-04-19 22:41 Aleliali 阅读(386) 评论(0) 推荐(0) 编辑

2020年4月5日

ML_6机器学习重要概念补充

摘要：学习目标 sklearn中的Pipeline 偏差与方差模型正则化之L1正则、L2正则一、sklearn中的Pipeline 研究一个因变量与一个或多个自变量间多项式的回归分析方法，称为多项式回归（Polynomial Regression）。多项式回归是线性回归模型的一种，其回归函数关于回归系阅读全文

posted @ 2020-04-05 12:29 Aleliali 阅读(168) 评论(0) 推荐(0) 编辑

ML_5最优化方法：梯度下降

摘要：机器学习就是需找一种函数f(x)并进行优化，且这种函数能够做预测、分类、生成等工作。关于“如何找到函数f(x)”的方法论。可以看作是机器学习的“三板斧”：第一步：定义一个函数集合（define a function set）——模型第二步：判断函数的好坏（goodness of a func 阅读全文

posted @ 2020-04-05 11:07 Aleliali 阅读(266) 评论(0) 推荐(0) 编辑

2020年3月22日

ML_4 线性回归算法

摘要：一、简单的线性回归只有一个自变量（特征）；方程是线性的；回归：label为连续数字型假设我们找到了最佳拟合的直线方程：y = ax + b,则对于每个样本点x_i ，根据我们的直线方程，预测值为：y_i_hat = a*x_i + b 最佳拟合：误差最小（为了方便求导绝对误差改为了平方误差）：∑ 阅读全文

posted @ 2020-03-22 21:59 Aleliali 阅读(178) 评论(0) 推荐(0) 编辑

2020年3月15日

ML_3 简单的数据预处理和特征工程

摘要：学习目标有四个：无量纲化：最值归一化、均值方差归一化及sklearn中的Scaler 缺失值处理处理分类型特征：编码与哑变量处理连续型特征：二值化与分段一、数据归一化在量纲不同的情况下，以上的情况，不能反映样本中每一个特征的重要程度。这就需要数据归一化了。一般来说，我们的解决方案是：把所阅读全文

posted @ 2020-03-15 23:13 Aleliali 阅读(388) 评论(0) 推荐(0) 编辑

2020年3月7日

ML_评价

摘要：如何评价模型的好坏。学习目标有三个：数据拆分：训练数据集&测试数据集（西瓜书第二章）（一）数据拆分的原因：防止过拟合，即只有训练数据在模型中表现好，而之外的数据都会出现拟合较差的情况——泛化能力差 learning目的：寻找泛化误差小的模型，但是又依赖于经验误差——将样本集分为training & 阅读全文

posted @ 2020-03-07 21:35 Aleliali 阅读(223) 评论(0) 推荐(0) 编辑

2020年3月1日

ML_KNN

摘要： KNN 概要： K邻近算法：将输入样本归为最近的K个样本中所属类别最多的一个类三个基本要素：K的选择，距离的定义，分类决策的规则 K邻近算法的实现（动手构造才能更加理解算法）：kd树用kd树的最邻近搜索：实现knn_classify: #%%计算原理 from sklearn import d 阅读全文

posted @ 2020-03-01 16:31 Aleliali 阅读(242) 评论(0) 推荐(0) 编辑

公告