xgboost学习笔记
一句话定义xgboost
很简单:Xgboost就是由很多CART树集成。
什么是CART树?
数据挖掘或机器学习中使用的决策树有两种主要类型:
分类树分析是指预测结果是数据所属的类(比如某个电影去看还是不看)
回归树分析是指预测结果可以被认为是实数(例如房屋的价格,或患者在医院中的逗留时间)
而术语分类回归树(CART,Classification And Regression Tree)分析是用于指代上述两种树的总称,由Breiman等人首先提出。
Bagging vs Boosting
Bagging 是用很多弱分类器,因为分类器都会 过 拟合。 例如,请很多 专家 来评判一个问题
Boosting是用很多弱分类器,因为分类器都会 欠 拟合。 例如,请很多小学生来评判一个问题
xgboost预处理的数据要求
xgboost 树模型其实是不建议使用one-hot编码,在xgboost上面的 issue 也提到过,相关的说明如下
提升树,基于残差的训练
1、用模型1 预测的 结果y1-真实结果y= 残差0
2、用模型2 预测 ,残差0当做真实的结果, 预测值 y2-残差0=残差1
3、用模型3 .......




浙公网安备 33010602011771号