CART，BDT，GBDT，XGBOOST

CART:

回归树的基本思想和分类树差不多，就是递归寻找最有切分特征j，和最优切分点s,即，求解

这是一个递归子空间求解最优的过程，在满足停止条件（比如生成N个划分空间）时返回树。

分类树（和ID3类似)：

类比ID3的信息增益和C4.5的信息增益比，CART分类树用基尼指数来作为最优特征的选择标准

基尼指数： PK表示，样本点属于K类的概率。

基尼指数意义和熵类似，总体内包含的类别越杂乱，GINI指数就越大，主要区别在于，熵达到峰值的过程要相对慢一些。因此，熵对于混乱集合的判罚要更重一些

BDT：提升树采用向前分布算法： fm(x)=fm−1(x)+T(x;θm)，其中下一棵树抉择树的参数通过经验风险最小化确定。θ∗m=argminθm∑i=1NL(yi,fm−1(xi)+T(xi;θm)

回归问题的提升树主要是下一颗树对当前残差（r = yi - f m-1 ( x i ））的拟合，损失函数使用回归问题的损失函数。比如平方误差损失函数

每次训练和训练回归树过程一样，只不过下一次训练的数据集是上一次训练的残差，得到的树相加之前已知树，反复该过程，直到满足停止条件（比如loss小于阈值，次数达到设定值）。

分类问题的提升树，可以把Adaboost中基本分类器设置为分类树即可。

ps.在实际问题中常用回归树设定阈值的方法来解决分类问题。

GBDT：相对于提升树，GBDT将前一棵树的损失函数的负梯度值当作残差的近似值进行拟合，

posted @ 2018-11-06 14:27 jellyj 阅读(719) 评论(0) 收藏举报

刷新页面返回顶部

jellyj