决策树
(1)决策树
1 决策树算法?
2 什么是熵? 信息熵公式
3 信息增益公式及意义?
4 决策树处理连续值的方法
把连续值变量进行排序成(a1,a2,…an)
再从(a1,a2)区间里取中位点A1作为分界来分裂数据,算信息增益率/基尼指数,从(a2,a3)区间里取中位点A2作为分界来分裂数据,算信息增益率/基尼指数,这样可以得到n-1个信息增益率,然后选最大的。
5 过拟合
判断:决策树对训练属于有很好的分类能力,但对未知的测试数据未必有好的分类能力,泛化 能力弱,即可能发生过拟合现象.
原因:(1)样本里的噪音数据干扰过大
(2)样本抽取错误,包括(但不限于)样本数量太少,抽样方法错误,抽样时没有足够正确考虑业务场景或业务特点
(3)建模时使用了样本中太多无关的输入变量。
解决:(1)合理、有效地抽样,用相对能够反映业务逻辑的训练集去产生决策树;
(2) 剪枝
6 介绍决策树 三种决策树区别和适应场景
7 说说决策树,决策树节点按照什么分裂,如何优化决策避免过拟合;
26 C4.5 ID3 优缺点
ID3选用信息增益作为损失函数,具有对多类特征的选择偏向性,且不能处理连续型特征,不能处理回归问题。
C4.5选择信息增益率作为损失函数,解决偏向取值较多的属性的问题,采用单点离散化对连续型特征进行处理,不能处理回归问题。
CART对于分类问题选用基尼指数作为损失函数,对于回归问题使用平方误差作为损失函数。
这三类算法都是贪心算法,找到的是局部最优分裂方法。
(2)随机森林
12 防止随机森林过拟合? 为什么有放回采样?
1. 如果不抽样,那么基学习器用所有样本训练,基学习器太相似差异性太小,模型的泛化性就很差;
2. 如果不放回抽样,那么每棵树用的样本完全不同,基学习器之间的相似性小,投票结果差,模型偏差大;
3. 可以产生一部分袋外样本,可以用来做袋外估计;
4. 改变了每个基学习器所用数据的样本分布,一定程度上引入了噪音,增加了模型的泛化能力。
8 随机森林算法?优缺点?
9 随机森林损失函数?
回归:平方误差
分类:基尼指数
10 随机森林怎么取最终结果 (分类与回归不同)
https://blog.csdn.net/sinat_41613352/article/details/88152589
关于回归问题,对于一个数据集我们可以将其分为n个子区间(A1,A2......An)。
![]()
对于任一区间Aj,我们可以产生一个对应的输出Cj,它就是区间Aj 上所有xi 对应的yi的均值
对于1个数据x 而言,它会落在我们的某个区间,所以根据我们的划分,会给它分配那个它落到区间的