会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Aleliali
博客园
首页
新随笔
联系
管理
订阅
03 2020 档案
ML_4 线性回归算法
摘要:一、简单的线性回归 只有一个自变量(特征);方程是线性的;回归:label为连续数字型 假设我们找到了最佳拟合的直线方程:y = ax + b,则对于每个样本点x_i ,根据我们的直线方程,预测值为:y_i_hat = a*x_i + b 最佳拟合:误差最小(为了方便求导绝对误差改为了平方误差):∑
阅读全文
posted @
2020-03-22 21:59
Aleliali
阅读(194)
评论(0)
推荐(0)
ML_3 简单的数据预处理和特征工程
摘要:学习目标有四个: 无量纲化:最值归一化、均值方差归一化及sklearn中的Scaler 缺失值处理 处理分类型特征:编码与哑变量 处理连续型特征:二值化与分段 一、数据归一化 在量纲不同的情况下,以上的情况,不能反映样本中每一个特征的重要程度。这就需要数据归一化了。 一般来说,我们的解决方案是:把所
阅读全文
posted @
2020-03-15 23:13
Aleliali
阅读(459)
评论(0)
推荐(0)
ML_评价
摘要:如何评价模型的好坏。学习目标有三个:数据拆分:训练数据集&测试数据集(西瓜书第二章) (一)数据拆分的原因:防止过拟合,即只有训练数据在模型中表现好,而之外的数据都会出现拟合较差的情况——泛化能力差 learning目的:寻找泛化误差小的模型,但是又依赖于经验误差——将样本集分为training &
阅读全文
posted @
2020-03-07 21:35
Aleliali
阅读(255)
评论(0)
推荐(0)
ML_KNN
摘要:KNN 概要: K邻近算法:将输入样本归为最近的K个样本中所属类别最多的一个类 三个基本要素:K的选择,距离的定义,分类决策的规则 K邻近算法的实现(动手构造才能更加理解算法):kd树 用kd树的最邻近搜索: 实现knn_classify: #%%计算原理 from sklearn import d
阅读全文
posted @
2020-03-01 16:31
Aleliali
阅读(272)
评论(0)
推荐(0)
公告