03 2020 档案

摘要:一、简单的线性回归 只有一个自变量(特征);方程是线性的;回归:label为连续数字型 假设我们找到了最佳拟合的直线方程:y = ax + b,则对于每个样本点x_i ,根据我们的直线方程,预测值为:y_i_hat = a*x_i + b 最佳拟合:误差最小(为了方便求导绝对误差改为了平方误差):∑ 阅读全文
posted @ 2020-03-22 21:59 Aleliali 阅读(194) 评论(0) 推荐(0)
摘要:学习目标有四个: 无量纲化:最值归一化、均值方差归一化及sklearn中的Scaler 缺失值处理 处理分类型特征:编码与哑变量 处理连续型特征:二值化与分段 一、数据归一化 在量纲不同的情况下,以上的情况,不能反映样本中每一个特征的重要程度。这就需要数据归一化了。 一般来说,我们的解决方案是:把所 阅读全文
posted @ 2020-03-15 23:13 Aleliali 阅读(459) 评论(0) 推荐(0)
摘要:如何评价模型的好坏。学习目标有三个:数据拆分:训练数据集&测试数据集(西瓜书第二章) (一)数据拆分的原因:防止过拟合,即只有训练数据在模型中表现好,而之外的数据都会出现拟合较差的情况——泛化能力差 learning目的:寻找泛化误差小的模型,但是又依赖于经验误差——将样本集分为training & 阅读全文
posted @ 2020-03-07 21:35 Aleliali 阅读(255) 评论(0) 推荐(0)
摘要:KNN 概要: K邻近算法:将输入样本归为最近的K个样本中所属类别最多的一个类 三个基本要素:K的选择,距离的定义,分类决策的规则 K邻近算法的实现(动手构造才能更加理解算法):kd树 用kd树的最邻近搜索: 实现knn_classify: #%%计算原理 from sklearn import d 阅读全文
posted @ 2020-03-01 16:31 Aleliali 阅读(272) 评论(0) 推荐(0)