机器学习之决策树
决策树算法的重点就是决策树的构造;决策树的构造就是进行属性选择度量,确定各个特征属性之间的拓扑结构(树结构);构建决策树的关键步骤就是分裂属性,分裂属性是指在某个节点按照某一类特征属性的不同划分构建不同的分支,其目标就是让各个分裂子集尽可能的'纯 '(让一个分裂子类中待分类的项尽可能的属于同一个类别)。
决策树学习过程
-
-
决策树生成:递归结构,对应于模型的局部最优
-
决策树剪枝:缩小树结构规模、缓解过拟合,对应于模型的全局选择
构建步骤如下:
-
将所有的特征看成一个一个的节点;
-
遍历每个特征的每一种分割方式,找到最好的分割点;将数据划分为不同的子节点,eg: N1、 N2....Nm;计算划分之后所有子节点的'纯度'信息;
-
对第二步产生的分割,选择出最优的特征以及最优的划分方式;得出最终的子节点: N1、N2....Nm
-
对子节点N1、N2....Nm分别继续执行2-3步,直到每个最终的子节点都足够'纯'。
三、信息指标
判断每个子节点足够'纯',就需要一个判断标准,这就引入了信息增益
首先了解信息熵的概念
信息熵:一个系统越是有序,信息熵就越低,一个系统越是混乱,信息熵就越高,所以信息熵被认为是一个系统有序程度的度量。
信息熵就是用来描述系统信息量的不确定度。
H(X)就叫做随机变量X的信息熵;

High Entropy(高信息熵):表示随机变量X是均匀分布的,各种取值情况是等概率出现的。
Low Entropy(低信息熵):表示随机变量X各种取值不是等概率出现。可能出现有的事件概率很大,有的事件概率很小。
给定条件X的情况下,随机变量Y的信息熵就叫做条件熵
给定条件X的情况下,所有不同x值情况下Y的信息熵的平均值叫做条件熵。

贪心策略:确定贪心指标,在候选方案集合中执行一个让贪心指标最大的方案。不会从全局最优的角度思考问题,近似求解,这个解可能是次有解(sub-optimal)
决策树的贪心指标:

信息增益:原来结点的不纯度-子节点不纯度的和
停止,一般情况有两种停止条件:
当每个子节点只有一种类型的时候停止构建
当前节点中记录数小于某个阈值,同时迭代次数达到给定值时,停止构建过程,此时使用max(p(i))作为节点的对应类型
方式一可能会使树的节点过多,导致过拟合(Overfiting)等问题;比较常用的方式是使用方式二作为停止条件。
五、
-
有监督的学习
-
非参数学习算法
-
自顶向下递归方式构造决策树
-
在每一步选择中都采取在当前状态下最好/优的选择
决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。
在决策树算法中,ID3 基于信息增益作为属性选择的度量,C4.5 基于信息增益比作为属性选择的度量,CART 基于基尼指数作为属性选择的度量
决策树的效果评估和一般的分类算法一样,采用混淆矩阵来进行计算准确率、召 回率、精确率等指标
也可以采用叶子节点的纯度值总和来评估算法的效果,值越小,效果越好。
六、
ID3:
ID3算法是决策树的一个经典的构造算法,内部使用信息熵以及信息增益来进行构建;每次迭代选择信息增益最大的特征属性作为分割属性
决策树构建速度快;实现简单;
缺点:
计算依赖于特征数目较多的特征,而属性值最多的属性并不一定最优
ID3算法不是递增算法
ID3算法是单变量决策树,对于特征属性之间的关系不会考虑
抗噪性差
不足:
只适合小规模数据集,需要将数据放到内存中
使用 ID3 算法构建决策树时,若出现各属性值取值数分布偏差大的情况,分类精度会大打折扣
ID3 算法本身并未给出处理连续数据的方法
ID3 算法不能处理带有缺失值的数据集,故在算法挖掘之前需要对数据集中的缺失值进行预处理
ID3 算法只有树的生成,所以该算法生成的树容易产生过拟合
产生的规则易于理解
准确率较高
实现简单
缺点:
对数据集需要进行多次顺序扫描和排序,所以效率较低
只适合小规模数据集,需要将数据放到内存中
决策树过渡拟合一般情况是由于节点太多导致的,剪枝优化对决策树的正确率影响是比较 大的,也是最常用的一种优化方式。
Random Forest
利用训练数据随机产生多个决策树,形成一个森林。然后使用这个森林对数据进行预测,选取最多结果作为预测结果。
后置剪枝:在决策树构建好后,然后再开始裁剪,一般使用两种方式:1)用单一叶子节点代替整个子树,叶节点的分类采用子树中最主要的分类;2)将一个子树完全替代另外一棵子树;后置剪枝的主要问题是计算效率问题,存在一定的浪费情况。
八、
(1) 速度快:计算量相对较小,且容易转化成分类规则。只要沿着树根向下一直走到叶,沿途的分裂
条件就能够唯一确定一条分类的谓词。
(2) 准确性高:挖掘出的分类规则准确性高,便于理解,决策树可以清晰的显示哪些字段比较重要,
即可以生成可以理解的规则。
(3)可以处理连续和种类字段
(4)不需要任何领域知识和参数假设
(5)适合高维数据
缺点:
(1) 对于各类别样本数量不一致的数据,信息增益偏向于哪些具有更多数值的特征
(2) 易于过拟合
(3) 忽略属性之间的相关性


浙公网安备 33010602011771号