2020 年 3月随笔档案 - Aleliali

ML_4 线性回归算法

摘要：一、简单的线性回归只有一个自变量（特征）；方程是线性的；回归：label为连续数字型假设我们找到了最佳拟合的直线方程：y = ax + b,则对于每个样本点x_i ，根据我们的直线方程，预测值为：y_i_hat = a*x_i + b 最佳拟合：误差最小（为了方便求导绝对误差改为了平方误差）：∑ 阅读全文

posted @ 2020-03-22 21:59 Aleliali 阅读(194) 评论(0) 推荐(0)

ML_3 简单的数据预处理和特征工程

摘要：学习目标有四个：无量纲化：最值归一化、均值方差归一化及sklearn中的Scaler 缺失值处理处理分类型特征：编码与哑变量处理连续型特征：二值化与分段一、数据归一化在量纲不同的情况下，以上的情况，不能反映样本中每一个特征的重要程度。这就需要数据归一化了。一般来说，我们的解决方案是：把所阅读全文

posted @ 2020-03-15 23:13 Aleliali 阅读(459) 评论(0) 推荐(0)

ML_评价

摘要：如何评价模型的好坏。学习目标有三个：数据拆分：训练数据集&测试数据集（西瓜书第二章）（一）数据拆分的原因：防止过拟合，即只有训练数据在模型中表现好，而之外的数据都会出现拟合较差的情况——泛化能力差 learning目的：寻找泛化误差小的模型，但是又依赖于经验误差——将样本集分为training & 阅读全文

posted @ 2020-03-07 21:35 Aleliali 阅读(255) 评论(0) 推荐(0)

ML_KNN

摘要：KNN 概要： K邻近算法：将输入样本归为最近的K个样本中所属类别最多的一个类三个基本要素：K的选择，距离的定义，分类决策的规则 K邻近算法的实现（动手构造才能更加理解算法）：kd树用kd树的最邻近搜索：实现knn_classify: #%%计算原理 from sklearn import d 阅读全文

posted @ 2020-03-01 16:31 Aleliali 阅读(272) 评论(0) 推荐(0)

Aleliali

03 2020 档案

公告