Fork me on GitHub
摘要:介绍 前面对模型的组合主要用了两种方式: (1)一种是平均/投票; (2)另外一种是加权平均/投票; 所以,我们有时就会陷入纠结,是平均的好,还是加权的好,那如果是加权,权重又该如何分配的好?如果我们在这些模型预测的结果上再训练一个模型对结果做预测,那么岂不是就免除了这些烦恼;而训练后,也可以方便的 阅读全文
posted @ 2021-05-06 20:41 努力的番茄 阅读(34) 评论(1) 推荐(0) 编辑
摘要:一.简介 为了让学习器越发的不同,randomforest的思路是在bagging的基础上再做一次特征的随机抽样,大致流程如下: 二.RandomForest:分类实现 import os os.chdir('../') from ml_models import utils from ml_mod 阅读全文
posted @ 2021-05-06 20:39 努力的番茄 阅读(21) 评论(0) 推荐(0) 编辑
摘要:一. 简介 Bagging的思路很简单,对大小为$n$的样本集进行$n$次重采样得到一个新的样本集,在新样本集上训练一个基学习器,该过程执行$m$,最后对这$m$个基学习器做组合即得到最后的强学习器: 二.代码实现:分类 import os os.chdir('../') from ml_model 阅读全文
posted @ 2021-05-06 20:35 努力的番茄 阅读(12) 评论(0) 推荐(0) 编辑
摘要:一.利用回归树实现分类 分类也可以用回归树来做,简单说来就是训练与类别数相同的几组回归树,每一组代表一个类别,然后对所有组的输出进行softmax操作将其转换为概率分布,然后再通过交叉熵或者KL一类的损失函数求每颗树相应的负梯度,指导下一轮的训练,以三分类为例,流程如下: 二.softmax+交叉熵 阅读全文
posted @ 2021-05-05 21:49 努力的番茄 阅读(111) 评论(0) 推荐(1) 编辑
摘要:一.简介 上一节已经介绍了提升树的算法流程,这一节只需要将下面的优化过程替换成求解具体的梯度即可: \[ w_m^*=arg\min_{w_m}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+T(x_i,w_m)) \] 下面介绍一下常用的损失函数及其对应的负梯度 (1)损失平方误差: 阅读全文
posted @ 2021-05-05 21:45 努力的番茄 阅读(16) 评论(0) 推荐(0) 编辑
摘要:简介 提升树与adaboost类似,也是boosting算法,它同样基于如下两点进行构建: (1)训练方法:前向分步算法,根据前面树的结果对当前树进行调整训练,以提高精度 (2)组合方法:基于树的加法模型,可以表示如下: \[ f_M(x)=\sum_{i=1}^MT(x,w_m) \] 这里,$T 阅读全文
posted @ 2021-05-05 21:41 努力的番茄 阅读(9) 评论(0) 推荐(0) 编辑
摘要:一.算法流程 adaboost回归模型与分类模型类似,主要的不同点在于错误率的计算、基模型的权重计算以及样本权重的更新,下面就直接介绍算法流程部分 输入:训练集$T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$,其中$x_i\in R^n,y_i\in R,i=1,2,. 阅读全文
posted @ 2021-05-04 16:05 努力的番茄 阅读(15) 评论(0) 推荐(0) 编辑
摘要:一.简介 adaboost是一种boosting方法,它的要点包括如下两方面: 1.模型生成 每一个基分类器会基于上一轮分类器在训练集上的表现,对样本做权重调整,使得错分样本的权重增加,正确分类的样本权重降低,所以当前轮的训练更加关注于上一轮误分的样本; 2.模型组合 adaboost是采用的加权投 阅读全文
posted @ 2021-05-04 15:53 努力的番茄 阅读(105) 评论(0) 推荐(0) 编辑
摘要:简介 前面已经介绍过了一些模型,它们各有各的优缺点: (1)比如SVM中,虽然它的最大化间隔能带来不错的泛化能力,但如果某些支持向量恰好是异常点,那么它的决策边界可能会错的很离谱; (2)对于决策树,虽然它的非线性拟合能力很强,但如果放纵树的生长,它甚至会为了个别噪声点创建琐碎的规则; (3)而对于 阅读全文
posted @ 2021-05-04 15:45 努力的番茄 阅读(16) 评论(0) 推荐(0) 编辑
摘要:简介 CART树即分类回归树(classification and regression tree),顾名思义,它即能用作分类任务又能用作回归任务,它的应用比较广泛,通常会用作集成学习的基分类器,总得来说,它与ID3/C4.5有如下不同: (1)它是一颗二叉树; (2)特征选择的方法不一样,CART 阅读全文
posted @ 2020-05-27 06:29 努力的番茄 阅读(339) 评论(0) 推荐(0) 编辑