决策树

 

(1)决策树

1 决策树算法?

2 什么是熵? 信息熵公式

3 信息增益公式及意义?

4 决策树处理连续值的方法

把连续值变量进行排序成(a1,a2,…an)
再从(a1,a2)区间里取中位点A1作为分界来分裂数据,算信息增益率/基尼指数,从(a2,a3)区间里取中位点A2作为分界来分裂数据,算信息增益率/基尼指数,这样可以得到n-1个信息增益率,然后选最大的。

5 过拟合

判断:决策树对训练属于有很好的分类能力,但对未知的测试数据未必有好的分类能力,泛化 能力弱,即可能发生过拟合现象. 

原因:(1)样本里的噪音数据干扰过大

          (2)样本抽取错误,包括(但不限于)样本数量太少,抽样方法错误,抽样时没有足够正确考虑业务场景或业务特点

          (3)建模时使用了样本中太多无关的输入变量。

解决:(1)合理、有效地抽样,用相对能够反映业务逻辑的训练集去产生决策树;

          (2) 剪枝

6 介绍决策树 三种决策树区别和适应场景

7 说说决策树,决策树节点按照什么分裂,如何优化决策避免过拟合;

26 C4.5 ID3 优缺点

ID3选用信息增益作为损失函数,具有对多类特征的选择偏向性,且不能处理连续型特征,不能处理回归问题。

C4.5选择信息增益率作为损失函数,解决偏向取值较多的属性的问题采用单点离散化对连续型特征进行处理,不能处理回归问题

CART对于分类问题选用基尼指数作为损失函数,对于回归问题使用平方误差作为损失函数。

这三类算法都是贪心算法,找到的是局部最优分裂方法。

 

 

(2)随机森林

12 防止随机森林过拟合? 为什么有放回采样?

1. 如果不抽样,那么基学习器用所有样本训练,基学习器太相似差异性太小,模型的泛化性就很差;

2. 如果不放回抽样,那么每棵树用的样本完全不同,基学习器之间的相似性小,投票结果差,模型偏差大;

3. 可以产生一部分袋外样本,可以用来做袋外估计;

4. 改变了每个基学习器所用数据的样本分布,一定程度上引入了噪音,增加了模型的泛化能力。

8 随机森林算法?优缺点?

9 随机森林损失函数?

回归:平方误差

分类:基尼指数

10 随机森林怎么取最终结果 (分类与回归不同)

https://blog.csdn.net/sinat_41613352/article/details/88152589

关于回归问题,对于一个数据集我们可以将其分为n个子区间(A1,A2......An)

对于任一区间Aj,我们可以产生一个对应的输出Cj它就是区间Aj 上所有xi 对应的yi的均值

对于1个数据x 而言,它会落在我们的某个区间,所以根据我们的划分,会给它分配那个它落到区间的Ci值,指标函数只在Ai是x分到的区间时取1。

 

 对于一个给定的回归树我们用平方误差来表示每个单元的损失:

 

 那么我们每个单元的最优输出就是使L最小。

(3)GBDT

https://www.douban.com/note/670632222/

13 了解Boosting么

14 gbdt树根据什么分裂? 怎么并发?

分裂:分类用gini,回归用最小平方误差

并发:

A. 计算每个样本的负梯度
B. 分裂挑选最佳特征及其分割点时,对特征计算相应的误差及均值时
C. 更新每个样本的负梯度时
D. 最后预测过程中,每个样本将之前的所有树的结果累加的时候

15 你觉得为什么gbdt的boosting体现在哪里。

16 随机森林节点的分裂策略,以及它和gbdt做分类有什么区别?哪个效果更好些?为什么?哪个更容易过拟合?为什么?

20 GBDT 损失函数解释

21 达到相似的预测结果,RF和GBDT哪个树深

随机森林

22 Bagging和bosting、GBDT 区别

24 GBDT 随机森林区别

(4)XGboost

17 介绍xgboost原理一下。写下xgboost目标函数。

18 讲讲xgboost怎么用以及常用参数

19 xgboost对特征缺失敏感吗,对缺失值做了什么操作? 哪些模型对特征缺失敏感,哪些不敏感

Xgboost 在处理带缺失值的特征时,先对非缺失的样本进行排序,对该特征缺失的样本先不处理,然后在遍历每个分裂点时,将这些缺失样本分别划入左子树和右子树来计算损失然后求最优。

首先根据non-missing的原则找出split point,然后有以下3种方式

1.计算missing值在左右子树的信息增益,选择大的方向
2.可以手动指定missing的默认方向,加快算法速度
3.训练集中没有缺失值而预测集中有,自动划分到右子树

23 Adaboost 随机森林区别?

25 GDBT和XGBoost的区别

 

 




posted on 2020-09-10 11:47  happygril3  阅读(222)  评论(0)    收藏  举报

导航