第五章:决策树
决策树模型与学习
决策树: if-then 规则的集合
性质:互斥并且完备,每个实例有且仅有一条对应的规则或者路径
条件概率分布
决策树表示给定特定特征条件下的条件概率分布
条件概率分布将特征空间进行了划分,每个划分是一个单元或者区域

学习
决策树学习的本质是从训练数据集中归纳一组分类规则
损失函数通常是正则化的极大似然函数
损失函数确定,学习问题变为找到损失函数意义下的最优决策函数,(NP)问题,通常使用启发算法,求近似解
特征选择
信息增益
信息增益等价于互信息
\(H(D) = -\sum_{k} \frac{|D_k|}{|D|}log_2{\frac{|D_k|}{|D|}}\)
\(H(D|A) = -\sum_{i=1}^{n}\frac{|D_i|}{|D|}H(D_i)=-\sum_{i=1}^{n}\frac{|D_i|}{|D|}\sum_{k}\frac{|D_{ik}|}{|D|}log_2{\frac{|D_{ik}|}{|D|}}\)
信息增益比
使用信息增益选择特征偏向于特征值较多的特征
决策树的生成
ID3

C4.5

剪枝
防止过拟合,提高模型的泛化能力
树\(T\),的叶节点\(|T|\),\(t\)是树\(T\)的叶节点,该叶节点有\(N_t\)个样本点,其中\(k\)类的样本点有\(N_{tk}\),\(H_t(T)\)为叶节点\(t\)上的经验熵
损失函数
CART 算法
分类与回归树(classification and regression tree)
回归树的生成

分类树的生成
基尼指数
二分类决策树

剪枝
\(\alpha\)控制者模型的大小,所以希望通过不同的\(\alpha\)来找到不同的大小的模型,然后通过交叉验证获取最好的模型
问题是\(\alpha\)如何选择
对于树中的一个内部节点\(t\),以t为单节点的损失函数(意味着在t节点剪纸后的结果)
\(C_\alpha(t) = C(t)+\alpha\)
以\(t\)为根节点的子树\(T_t\)的损失函数
\(C_\alpha(T_t) = C(T_t)+\alpha |T_t|\)
当\(\alpha=0\)的时候\(C_\alpha(T_t)< C_\alpha(t)\)
当\(\alpha \to \infty\),\(C_\alpha(T_t)>C_\alpha(t)\)
连续函数,零点存在定理,存在\(\alpha=\frac{C(t)-C(T_t)}{|T_t|-1}\),时相同的损失函数.但是t的节点更少,t比\(T_t\)更可取.对\(T_t\)剪纸


浙公网安备 33010602011771号