统计学习——决策树

  决策树(decision tree)是一种基本的分类与回归方法。在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修建。本文会介绍ID3,C4.5,重点介绍CART算法,因为scikit-learn使用了优化版的CART算法作为其决策树算法的实现。

1.决策树模型

  分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征,叶结点表示一个类。
  用决策树分类,就是将实例的特征不断与内部结点比较,递归地对实例进行测试并分配,直至达到叶结点。最后将实例分到叶结点的类中。


  圆表示内部结点,方框表示叶结点。

2.决策树学习

  决策树学习的目标就是根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。本质上是从训练数据集中归纳出一组分类规则。那么规则要怎么确定,具体的,就是每个内部结点上的特征要怎么选择呢?规则确定了,又要怎么生成这棵决策树呢?还有与满足训练数据集的决策树可能有多个,我们需要的是一个与训练数据矛盾较小,同时具有很好的泛化能力的决策树,又要怎么找到呢?生成的决策树可能对训练数据有很好的分类能力,但对未知的测试数据却未必有很好的分类能力,即可能发生过拟合现象,我们又该如何对树剪枝,从而使他具有更好的泛化能力?
  可以看出,决策树学习算法包含特征选择、决策树的生成与决策树的剪枝过程。由于决策树表示一个条件概率分布,所以深浅不同的决策树对应着不同复杂度的概率模型。决策树的生成对应于模型的局部选择,决策树的剪枝对应着模型的全局选择。我们应该让决策树的生成达到局部最优,即在训练数据集上达到最好;让决策树的剪枝达到全局最优,即在测试集上也要达到最好。
  下面先介绍一些信息论的基础,再引出决策树的算法。

3.决策树算法的信息论基础

  在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。设\(X\)是一个取有限个值的离散随机变量,其概率分布为

\[P(X=x_i) = p_i~~~~~~(i=1,2,···,n) \]

  则随机变量\(X\)的熵定义为

\[H(X) = -\sum_{i=1}^n p_i ~log~p_i \]

  \(log\)为以\(2\)或者\(e\)为底的对数,特别的,若\(p_i = 0\),则定义\(0log0=0\),由定义可知,熵只依赖于\(X\)的分布,而与\(X\)的取值无关。且熵越大,随机变量的不确定性就越大。
  熟悉了一个变量\(X\)的熵,很容易推广到多个变量的联合熵,这里给出两个变量\(X\)\(Y\)的联合熵表达式:

\[H(X,Y) = -\sum_{x_i \in X} \sum_{y_i \ in Y} p(x_i,y_i) log ~p(x_i,y_i) \]

  有了联合熵,又可以得到条件熵\(H(X|Y)\),条件熵表示我们在知道\(Y\)后,\(X\)的不确定性,即:

\[H(X|Y) = -\sum_{x_i \in X}\sum_{y_i\in Y} p(x_i,y_i) log ~p(x_i|y_i) = \sum_{j=1}^n p(Y=y_j) H(X|Y=y_j) \]

  \(H(X)\) 度量了\(X\)的不确定性,条件熵\(H(X|Y)\)度量了我们在知道\(Y\)以后\(X\)的不确定性,那么我们定义\(H(X) - H(X|Y)\)为互信息(在决策树ID3算法中叫作信息增益),它度量了\(X\)在知道\(Y\)以后不确定性减少程度,记为\(I(X,Y)\)
  用图来表示,就是这样的关系。左边的椭圆代表\(H(X)\),右边的椭圆\(H(Y)\),中间重合部分就是我们的互信息\(I(X,Y)\),左边的椭圆去掉重合部分就是\(H(X|Y)\),右边的椭圆去掉重合部分就是\(H(Y|X)\)。两个椭圆的并就是\(H(X,Y)\)

4.ID3算法

  ID3算法就是通过比较各个特征的对最终类的信息增益大小来判断应该选用哪个特征来构建决策树,用计算出的信息增益最大的特征来建立决策树的当前节点。 下面先介绍信息增益的例子,再介绍算法过程。

  例:表是一个由15个样本组成的贷款申请训练数据。数据包括贷款申请人的4个特征(属性):第1个特征是年龄,有3个可能值:青年,中年,老年;第2个特征是有工作,有2个可能值:是,否;第3个特征是有自己的房子,有2个可能值:是,否;第4个特征是信贷情况,有3个可能值:非常好,好,一般。表的最后一列是类别,是否同意贷款,取2个值:是,否。根据贷款申请样本数据表来建一棵贷款申请的决策树。

  解:对表所给的训练数据集\(D\),根据信息增益最大准则选择最优特征。

  首先计算熵\(H(D)\)

\[H(D) = -\frac{9}{15} log_2\frac{9}{15} - \frac{6}{15}log_2\frac{6}{15} = 0.971 \]

  然后计算各特征对数据集\(D\)的信息增益。分别以\(A_1,A_2,A_3,A_4\)表示年龄、有工作、有自己的房子个信贷情况4个特征,则

  (1)

\[\begin{aligned} I(D,A_1) &= H(D) -[\frac{5}{15}H(D_1) + \frac{5}{15} H(D_2)+\frac{5}{15} H(D_3)]\\ &=0.971-[\frac{5}{15}(-\frac{2}{5}log_2\frac{2}{5}-\frac{3}{5}log_2\frac{3}{5})+\frac{5}{15}(-\frac{3}{5}log_2\frac{3}{5}-\frac{2}{5}log_2\frac{2}{5})+\frac{5}{15}(-\frac{4}{5}log_2\frac{4}{5}-\frac{1}{5}log_2\frac{1}{5})]\\ &=0.971-0.888=0.083 \end{aligned} \]

  这里\(D_1,D_2,D_3\)分别是\(D\)\(A_1\)(年龄)取值为青年、中年、老年的样本子集。类似的,

  (2)

\[I(D,A_2) = H(D) -[\frac{5}{15}H(D_1) + \frac{10}{15}H(D_2)] = 0.324 \]

  (3)

\[I(D,A_3) = 0.420,I(D,A_4) = 0.363 \]

  比较各特征的信息增益值。特征\(A_3\)最大,所以选择其为根结点。它将训练数据集\(D\)划分为两个子集\(D_1\)(\(A_3\)取值为“是”)和\(D_2\)(\(A_3\)取值为“否”)。由于\(D_1\)只有同一类的样本点,所以它成为一个叶结点,结点的类标记为“是”。

  对\(D_2\)则需要从特征\(A_1\)(年龄),\(A_2\)(有工作)和\(A_4\)(信贷情况)中选择新的特征。计算各个特征的信息增益:

\[\begin{aligned} H(D_2) &=-\frac{3}{9}log_2\frac{3}{9}-\frac{6}{9}log_2\frac{6}{9} = 0.918\\ I(D_2,A_1)&= H(D_2) - H(D_2|A_1) = 0.918 - 0.667 =0.251\\ I(D_2,A_2)&=H(D_2) -H(D_2|A_2) = 0.918\\ I(D_2,A_4)& = H(D_2) -H(D_2|A_4) = 0.474 \end{aligned} \]

  选择信息增益最大的特征\(A_2\)(有工作)作为结点的特征。由于\(A_2\)有两个可能取值,从这一结点引出两个子结点:一个对应“是”(有工作)的子结点,包含3个样本,它们属于同一类,所以这是一个叶结点,类标记为“是”;另一个是对应“否”(无工作)的子结点,包含6个样本,它们也属于同一类,所以这也是一个叶结点,类标记为“否”。

  这样生成一棵决策树。该决策树只用了两个特征(有两个内部结点)

  算法过程(ID3):

  输入:\(m\)个样本,样本输出集合为\(D\),每个样本有\(n\)个离散特征,特征集合为\(A\)
  输出:决策树\(T\)

  (1)初始化信息增益的阈值\(\varepsilon\)

  (2)判断样本是否为同一类输出\(D_i\),如果是则返回单结点\(T\)。标记类别为\(D_i\)

  (3)判断特征是否为空,如果是则返回单结点树\(T\),标记类别为样本中输出类别\(D\)实例数最多的类别。

  (4)计算\(A\)的各个特征(一共\(n\)个)对输出\(D\)的信息增益,选择信息增益最大的特征\(A_g\)

  (5)如果\(A_g\)的信息增益小于阈值\(\varepsilon\),则返回单结点树\(T\),标记类别为样本中输出类别\(D\)实例数最多的类别。

  (6)否则,按特征\(A_g\)的不同取值\(A_{gi}\)将对应的样本输出\(D\)分成不同类别\(D_i\)。每个类别产生一个子结点。对应特征值为\(A_{gi}\)。返回增加了结点的数T。

  (7)对于所有的子结点,令\(D = D_i,A =A -{A_g}\)递归调用2-6步,得到子树\(T_i\)并返回。

  ID3算法的不足

  (1)ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3用途。

  (2)ID3采用信息增益大的特征优先建立决策树的结点。但在相同条件下,取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值,各为\(\frac{1}{2}\),另一个变量为3个值,各位\(\frac{1}{3}\),取3个值的比取2个值的信息增益大。
  可以这样理解,当特征类别数较多时候,你就分的越细,那么每个类别里的样本数量较少(因为样本总数是一定的),样本更容易被划分到各个特征类别中,即样本不确定性变小,信息增益变大。这是对于大多数情况,当然存在一些极端例子,有可能特征类别少的反而可能信息增益大的。

  (3)ID3算法对于缺失值的情况没有做考虑。

  (4)ID3算法没有考虑过拟合的问题

  基于上述问题,ID3算法的作者昆兰做了改进,写出了C4.5算法。

5.C4.5算法

  ID3算法有四个主要的不足,一是不能处理连续特征,第二个就是用信息增益作为标准容易偏向于取值较多的特征,最后两个是缺失值处理的问和过拟合问题。昆兰在C4.5算法中改进了上述4个问题。

  对于第一个问题,不能处理连续特征, C4.5的思路是将连续的特征离散化。比如\(m\)个样本的连续特征\(A\)\(m\)个,从小到大排列为\(a_1,a_2,...,a_m\),则C4.5取相邻两样本值的平均数,一共取得\(m-1\)个划分点,其中第\(i\)个划分点\(T_i\)表示为:\(T_i=\frac{a_i+a_{i+1}}{2}\)。对于这\(m-1\)个点,分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的增益最大的点为\(a_t\),则小于\(a_t\)的值为类别1,大于\(a_t\)的值为类别2,这样我们就做到了连续特征的离散化。

  对于第二个问题,信息增益作为标准容易偏向于取值较多的特征的问题。我们引入一个信息增益比\(I_R(X,Y)\),它是特征\(A\)对训练数据集\(D\)的信息增益和特征熵\(H_A(D)\)的比值。表达式如下:

\[I_R (D,A) = \frac{I(D,A)}{H_A(D)} \]

  这里特征熵\(H_A(D)\)是从特征\(A\)的角度出发,考虑的是特征\(A\)的不同类别数所造成特征\(A\)的不确定性。
  可以这样理解,特征数越多,取值可能性也就越大,所对应的特征熵也越大,它作为分母,可以校正信息增益容易偏向于取值较多的问题。

  对于第三个缺失值的问题,分为两个子问题,一是样本某些特征缺失的情况下该如何选择划分属性,即要如何选择特征来分裂子树;二是确定了划分属性,对于在该属性上缺失的样本要进哪棵子树的问题。

  对于第一个子问题,对于某一个有缺失特征值的特征\(A\)。C4.5将数据分成两部分,对每一个样本设置一个权重,然后划分数据,一部分是有特征值\(A\)的数据\(D_1\),另一部分是没有特征\(A\)的数据\(D_2\)。然后对于没有缺失特征\(A\)的数据集\(D_1\)计算加权重的信息增益比,最后乘上一个系数,这个系数是没有特征值\(A\)缺失的样本加权后占加权总样本的比例。比如100个样本,其中40个样本有\(A\)特征的值,另外\(60\)缺失特征\(A\),那我们就只用这40个样本来计算信息\(A\)特征对应的信息增益比,计算完后在乘以0.4。

  对于第二个子问题,可以将缺失特征的样本同时划分入所有的子结点,不过将该样本的权重按各个子结点样本的数量比例来分配。比如缺失特征\(A\)的样本\(a\)之前权重为1,特征\(A\)有3个特征值\(A_1,A_2,A_3\)。3个特征值对应的无缺失\(A\)特征的样本个数为2,3,4.则\(a\)同时划分入\(A_1,A_2,A_3\)。对应权重调节为\(2/9,3/9, 4/9\)

  对于第四个问题,C4.5引入正则化系数进行初步的剪枝。

  其它算法过程和ID3类似。

   C4.5算法的不足

  C4.5虽然改进了ID3算法的几个主要问题,但仍然有优化空间。

  (1)由于决策树算法非常容易过拟合,因此对于生成的决策树必须要进行剪枝。剪枝的算法有非常多,C4.5的剪枝方法有优化的空间。思路主要是两种,一种是预剪枝,即在生成决策树的时候就决定是否剪枝。另一个是后剪枝,即先生成决策树,再通过交叉验证来剪枝。后面在讲CART树的时候我们会专门讲决策树的减枝思路,主要采用的是后剪枝加上交叉验证选择最合适的决策树。

  (2)C4.5生成的是多叉树,即一个父节点可以有多个节点。很多时候,在计算机中二叉树模型会比多叉树运算效率高。如果采用二叉树,可以提高效率。

  (3)C4.5只能用于分类,如果能将决策树用于回归的话可以扩大它的使用范围。

  (4)C4.5由于使用了熵模型,里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算。如果能够加以模型简化可以减少运算强度但又不牺牲太多准确性的话,那就更好了。

  这4个问题在CART树里面部分加以了改进。所以目前如果不考虑集成学习话,在普通的决策树算法里,CART算法算是比较优的算法了。scikit-learn的决策树使用的也是CART算法。下面我们会重点讲解CART算法。

6.CART算法

  CART算法既可以做回归,也可以做分类,下面会分别介绍。

6.1CART分类决策树算法

6.1.1CART分类决策树算法的特征选择

  在ID3算法中我们使用了信息增益大优先原则来做特征选择,在C4.5算法中,采用信息增益比大优先原则选择特征,以减少信息增益容易偏向特征值多的特征问题。但是无论是ID3还是C4.5,都是基于熵模型,设计大量对数运算。为此,CART分类决策树算法引入基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。特征选择为基尼系数下的特征。

  在分类问题中,假设有\(k\)个类别,第\(k\)个类别的概率为\(p_k\),则基尼系数为:

\[Gini(p) = \sum_{k=1}^K p_k(1-p_k) = 1-\sum_{k=1}^K p_k^2 \]

  对于二分类问题,若样本点属于第1个类的概率是\(p\),则基尼系数为:

\[Gini(p) = 2p(1-p) \]

  对于给定的样本\(D\),样本总数为\(|D|\),假设有\(K\)个类别,第\(k\)个类别的数量为\(|C_k|\),则样本\(D\)的基尼系数为:

\[Gini(D) = 1-\sum_{k=1}^K(\frac{|C_k|}{|D|})^2 \]

  特别的,对于样本\(D\),如果根据特征\(A\)的某个值\(a_i\),把\(D\)分成两个子集\(D_1\)\(D_2\),则在特征\(A\)的条件下,\(D\)的基尼系数为:

\[Gini(D,A) = \frac{|D_1|}{|D|} Gini(D_1) + \frac{|D_2|}{|D|} Gini(D_2) \]

  基尼系数\(Gini(D)\)表示样本\(D\)的不确定性,基尼系数\(Gini(D,A)\)表示经\(A=a_i\)分割后样本\(D\)的不确定性。基尼系数值越大,样本集合的不确定性也就越大,这一点与熵相似。

  下图显示二类分类问题中基尼系数\(Gini(p)\)、熵(bit)之半\(\frac{1}{2}H(P)\)和分类误差率的关系。横坐标表示概率\(p\),纵坐标表示损失。

  从上图可以看出,基尼系数和熵之半的曲线非常接近。因此,基尼系数可以做为熵模型的一个近似替代。而CART分类树算法就是使用的基尼系数来选择决策树的特征。同时,为了进一步简化,CART分类树算法每次仅仅对某个特征的值进行二分,而不是多分,这样CART分类树算法建立起来的是二叉树,而不是多叉树。这样一可以进一步简化基尼系数的计算。

6.1.2CART分类树算法处理连续特征和离散特征

  对于CART分类树连续值的处理问题,于C4.5相同,都是将连续的特征离散化。但选择划分点时度量方式不同,CART分类树使用基尼系数。

  假设\(m\)个样本的连续特征\(A\)\(m\)个,从小到大排列为\(a_1,a_2,···,a_m\),则CART算法取相邻两样本数值的平均值,一共取得\(m-1\)个划分点,其中第\(i\)个划分点\(T_i\)表示为:\(T_i = \frac{a_i+a_{i+1}}{2}\),对于这\(m-1\)个点,分别计算以该点作为二元分类点时的基尼系数。选择基尼系数最小的点作为该连续特征的二元离散分类点。比如取到的基尼系数最小的点为\(a_t\),则小于\(a_t\)的值为类别\(1\),大于\(a_t\)的值为类别\(2\),这样我们就做到了连续特征的离散化。要注意的是,与ID3或者C4.5处理离散属性不同的是,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。

  对于CART分类树离散值的处理问题,采用的思路是不停的二分离散特征。

  回忆下ID3或者C4.5,如果某个特征\(A\)被选取建立决策树结点,如果它有\(A_1,A_2,A_3\)三种类别,我们会在决策树上一下建立一个三叉的结点。这样导致决策树是多叉树。但是CART分类树使用的方法不同,他采用的是不停的二分,还是这个例子,CART分类树会考虑把\(A\)分成\(\{A_1\}\)\(\{A_2,A_3\}\), \(\{A_2\}\)\(\{A_1,A_3\}\), \(\{A_3\}\)\(\{A_1,A_2\}\)三种情况,找到基尼系数最小的组合,比如\(\{A_2\}\)\(\{A_1,A_3\}\),然后建立二叉树结点,一个结点是\(A_2\)对应的样本,另一个结点是\(\{A_1,A_3\}\)对应的结点。同时,由于这次没有把特征\(A\)的取值完全分开,后面我们还有机会在子结点继续选择到特征\(A\)来划分\(A_1\)\(A_3\)。这和ID3或者C4.5不同,在ID3或者C4.5的一棵子树中,离散特征只会参与一次结点的建立。

  举个例子:
  还是这张表,应用CART算法生成决策树。

  解:首先计算各特征的基尼系数,选择最优特征以及其最优优点。还是以\(A_1,A_2,A_3,A_4\)表示年龄、有工作、有自己的房子和信贷情况4个特征,并以\(1,2,3\)表示年龄的值为青年、中年和老年;以\(1,2\)表示有工作和有自己的房子的值为是和否;以\(1,2,3\)表示信贷情况的值为非常好、好和一般。

  求特征\(A_1\)的基尼系数:

\[\begin{aligned} Gini(D,A_1 = 1) &= \frac{5}{15}(2\times \frac{2}{5}(1-\frac{2}{5}))+\frac{10}{15}(2\times \frac{7}{10}(1-\frac{7}{10})) = 0.44\\ Gini(D,A_1=2) &=0.48\\ Gini(D,A_1 = 3)&=0.44 \end {aligned} \]

  由于\(Gini(D,A_1 =1 )\)\(Gini(D,A_1=3)\)相等且最小,所以\(A_1 = 1\)\(A_1 = 3\) 都可以选择\(A_1\)的最优切分点。

  求特征\(A_2\)\(A_3\)的基尼系数:

\[\begin{aligned} Gini(D,A_2 = 1)& = 0.32\\ Gini(D,A_3 = 1) &=0.27 \end{aligned} \]

  由于\(A_2\)\(A_3\)只有一个切分点,所以它们就是最优切分点。

  求特征\(A_4\)的基尼系数:

\[\begin{aligned} Gini(D,A_4 = 1) &= 0.36\\ Gini(D,A_4 = 2)&=0.47\\ Gini(D,A_4 = 3) &=0.32 \end{aligned} \]

  \(Gini(D,A_4 = 3)\)最小,所以\(A_4=3\)\(A_4\)的最优切分点。

  在\(A_1,A_2,A_3,A_4\)几个特征中,\(Gini(D,A_3 = 1) = 0.27\)最小,所以选择特征\(A_3\)为最有特征,\(A_3 = 1\)为其最优切分点。于是根结点生成两个子结点,一个是叶结点。对另一个结点继续使用以上方法在\(A_1,A_2,A_3\) 中选择最优特征及其最优切分点,结果是\(A_2 = 1\)。所有结点都是叶结点。

6.1.3CART分类树生成算法

  输入:训练集\(D\),基尼系数的阈值,样本个数阈值。

  输出:决策树\(T\)

  从根结点开始,递归地对每个结点进行以下操作,构建二叉树。

  (1)对于当前结点的数据集为\(D\),如果样本个数小于阈值或者没有特征,则返回决策子树,当前结点停止递归。

  (2)计算样本集\(D\)的基尼系数,如果基尼系数小于阈值,则返回决策子树,当前结点停止递归。

  (3)计算当前结点现有的各个特征的各个特征值对数据集\(D\)的基尼系数。缺失值处理同C4.5。

  (4)在计算出来的各个特征的各个特征值对数据集\(D\)的基尼系数中,选择基尼系数最小的特征\(A\)和对应的特征值\(a\)。根据这个最优特征和最优特征值,把数据集划分成两部分\(D_1\)\(D_2\),同时建立当前结点的左右结点,左结点的数据集\(D\)\(D_1\),右结点的数据集\(D_2\)

  (5)对左右的子结点递归地调用(1)-(4)步,生成决策树。

  对于生成的决策树做预测的时候,假如测试集里的样本A落到了某个叶子结点,而结点里有多个训练样本。则对于A的类别预测采用的是这个叶子结点里概率最大的类别。

6.2CART回归树建立算法

  CART回归树和CART分类树的建立算法大部分是类似的,所以这里只讨论不同的地方。

  首先要明白回归与分类的区别,两者的区别在于样本的输出,如果样本输出是离散值,那么这是一棵分类树;如果样本输出是连续值,那么这是一棵回归树。

  除了概念的不同,CART回归树和CART分类树的建立和预测的区别主要有下面两点:

  (1)连续值的处理方法不同

  (2)树建完后预测的方式不同

  对于连续值的处理,我们知道CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型,但是对于回归模型,我们使用了常见的是方差的度量方式,CART回归树的度量目标是,对于任意划分特征\(A\),对应的任意划分点\(s\)两边划分成的数据集\(D_1\)\(D_2\),求出使\(D_1\)\(D_2\)各自集合的均方差最小,同时\(D_1\)\(D_2\)的均方差之和最小的对应的特征和特征值划分点。表达式为:

\[\underbrace{min}_{A,s}\Bigg[\underbrace{min}_{c_1}\sum\limits_{x_i \in D_1(A,s)}(y_i - c_1)^2 + \underbrace{min}_{c_2}\sum\limits_{x_i \in D_2(A,s)}(y_i - c_2)^2\Bigg] \]

  其中,\(c_1\)\(D_1\)数据集的样本输出均值,\(c_2\)\(D_2\)数据集的样本输出均值。

  对于决策树建立后做预测的方式,上面讲到了CART分类树采用叶子结点里概率最大的类别作为当前结点的预测类型。而回归树输出的不是类别,而是通过最终叶子结点的均值或者中位数来预测输出结果。

  除了上面提到以外,CART回归树和CART分类树的建立算法和预测没有什么区别。

6.3CART树算法的剪枝

  由于生成树很容易对训练集过拟合,而使得泛化能力差。我们需要降低模型的复杂度,即通过剪枝的办法,是这棵决策树变得简单点,其实就是通过正则化的手段。

  CART采用后剪枝法,即先生成决策树,然后产生所有可能的剪枝后的CART树,然后使用交叉验证来检验各种剪枝的效果,选择泛化能力最好的剪枝树。

  首先定义剪枝的损失函数度量,在剪枝的过程中,对于任意的一棵子树\(T\),其损失函数为:

\[C_\alpha(T_t) = C(T_t) + \alpha|T_t| \]

  其中,\(\alpha\)为正则化参数,\(C(T_t)\)为训练数据的预测误差,分类树是用基尼系数,回归树使用均方差。\(|T_t|\)是子树\(T\)的叶子结点的数量。

  当\(\alpha = 0\)时,没有正则化,原始生成的CART树即为最优子树。当\(\alpha = \infty\)时,正则化达到最大强度,此时由原始的CART树的根结点组成的单结点树为最优子树。当然,这是两种极端情况。一般来说\(\alpha\)越大,则剪枝剪的越厉害,生成的最优子树就越小。对于固定的\(\alpha\),一定存在使损失函数\(C_\alpha(T_t)\)最小的唯一子树。

  寻找这棵最小唯一子树:对于任意一棵子树\(T_t\),如果没有剪枝,它的损失是

\[C_\alpha(T_t) = C(T_t) + \alpha|T_t| \]

  如果将其剪掉,仅保留根结点,则损失是

\[C_\alpha(T) = C(T) + \alpha \]

  当\(\alpha = 0\)或者\(\alpha\)很小时,\(C_\alpha(T_t) < C_\alpha(T)\),当\(\alpha\)增大到一定的程度时

\[C_\alpha(T_t) = C_\alpha(T) \]

  当\(\alpha\)继续增大时不等式反向,也就是说,如果满足下式:

\[\alpha = \frac{C(T)-C(T_t)}{|T_t|-1} \]

  \(T_t\)\(T\)有相同的损失函数,但是\(T\)结点更少,因此可以对子树\(T_t\)进行剪枝,也就是将它的子结点全部剪掉,变为一个叶子结点\(T\)

  最后我们看看CART树的交叉验证策略。上面我们讲到,可以计算出每个子树是否剪枝的阈值\(\alpha\),如果我们把所有的结点是否剪枝的值\(\alpha\)都计算出来,然后分别针对不同的\(\alpha\)所对应的剪枝后的最优子树做交叉验证。这样就可以选择一个最好的\(\alpha\),有了这个\(\alpha\),我们就可以用对应的最优子树作为最终结果。

  CART树剪枝算法

  输入:CART树建立算法得到的原始决策树\(T_0\)

  输出:最优决策子树\(T_\alpha\)

  (1)初始化\(k=0,T=T_0\), 最优子树集合\(ω=\{T\}\)

  (2)\(α_{min}=\infty\)

  (3) 从叶子结点开始自下而上计算各内部结点\(t\)的训练误差损失函数\(C_α(T_t)\)(回归树为均方差,分类树为基尼系数), 叶子结点数\(|T_t|\),以及正则化阈值\(α=min\{\frac{C(T)−C(T_t)}{|T_t|−1},α_{min}\}\), 更新\(α_{min}=α\)

  (4) \(α_k=α_{min}\)

  (5)自上而下的访问子树\(t\)的内部结点,如果\(\frac{C(T)−C(T_t)}{|T_t|−1}≤α_k\)时,进行剪枝。并决定叶结点\(t\)的值。如果是分类树,则是概率最高的类别,如果是回归树,则是所有样本输出的均值。这样得到\(α_k\)对应的最优子树\(T_k\)

  (6)最优子树集合\(ω=ω∪T_k\)

  (7) \(k=k+1,T=T_k\), 如果\(T\)不是由根结点单独组成的树,则回到步骤2继续递归执行。否则就已经得到了所有的可选最优子树集合\(ω\)

  (8) 采用交叉验证在\(ω\)选择最优子树\(T_α\)

7.CART算法总结

  CART算法相比C4.5算法,采用了简化的二叉树模型,同时特征选择采用了近似的基尼系数来简化计算,还可以做回归模型。

\[\begin{array}{|c|c|c|c|c|} \hline {算法} & {支持模型} & {树结构}&{特征选择}&{连续值处理}&{缺失值处理}&{剪枝} \\ \hline {ID3} & {分类} & {多叉树}&{信息增益}&{不支持}&{不支持}&{不支持} \\ \hline {C4.5} & {分类} & {多叉树}&{信息增益比}&{支持}&{支持}&{支持} \\ \hline {CART} & {分类回归} & {二叉树}&{基尼系数、均方差}&{支持}&{支持}&{支持} \\ \hline \end{array} \]

  CART算法缺点:

  (1)应该大家有注意到,无论是ID3, C4.5还是CART,在做特征选择的时候都是选择最优的一个特征来做分类决策,但是大多数,分类决策不应该是由某一个特征决定的,而是应该由一组特征决定的。这样决策得到的决策树更加准确。这个决策树叫做多变量决策树(multi-variate decision tree)。在选择最优特征的时候,多变量决策树不是选择某一个最优特征,而是选择最优的一个特征线性组合来做决策。这个算法的代表是OC1,这里不多介绍。

  (2)如果样本发生一点点的改动,就会导致树结构的剧烈改变。这个可以通过集成学习里面的随机森林之类的方法解决。  

8.scikit-learn决策树算法类库

  scikit-learn决策树算法类库内部实现是使用了优化过的CART树算法,既可以做分类,又可以做回归。分类决策树的类对应的是DecisionTreeClassifier,而回归决策树的类对应的是DecisionTreeRegressor。两者的参数定义几乎完全相同,但是意义不全相同。下面就对DecisionTreeClassifier和DecisionTreeRegressor的重要参数做一个总结,重点比较两者参数使用的不同点和调参的注意点。具体看scikit-learn决策树算法类库

参数 DecisionTreeClassifier DecisionTreeRegressor
特征选择标准criterion 可以使用"gini"或者"entropy",前者代表基尼系数,后者代表信息增益。一般说使用默认的基尼系数"gini"就可以了,即CART算法。除非你更喜欢类似ID3, C4.5的最优特征选择方法。 可以使用"mse"或者"mae",前者是均方差,后者是和均值之差的绝对值之和。推荐使用默认的"mse"。一般来说"mse"比"mae"更加精确。除非你想比较二个参数的效果的不同之处。
特征划分点选择标准splitter 可以使用"best"或者"random"。前者在特征的所有划分点中找出最优的划分点。后者是随机的在部分划分点中找局部最优的划分点。

默认的"best"适合样本量不大的时候,而如果样本数据量非常大,此时决策树构建推荐"random"

划分时考虑的最大特征数max_features 可以使用很多种类型的值,默认是"None",意味着划分时考虑所有的特征数;如果是"log2"意味着划分时最多考虑log2N个特征;如果是"sqrt"或者"auto"意味着划分时最多考虑N^(1/2)个特征。如果是整数,代表考虑的特征绝对数。如果是浮点数,代表考虑特征百分比,即考虑(百分比xN)取整后的特征数。其中N为样本总特征数。

一般来说,如果样本特征数不多,比如小于50,我们用默认的"None"就可以了,如果特征数非常多,我们可以灵活使用刚才描述的其他取值来控制划分时考虑的最大特征数,以控制决策树的生成时间。

决策树最大深max_depth 决策树的最大深度,默认可以不输入,如果不输入的话,决策树在建立子树的时候不会限制子树的深度。一般来说,数据少或者特征少的时候可以不管这个值。如果模型样本量多,特征也多的情况下,推荐限制这个最大深度,具体的取值取决于数据的分布。常用的可以取值10-100之间。
内部节点再划分所需最小样本数min_samples_split 这个值限制了子树继续划分的条件,如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分。 默认是2.如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。我之前的一个项目例子,有大概10万样本,建立决策树时,我选择了min_samples_split=10。可以作为参考。
叶子节点最少样本数min_samples_leaf 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝。 默认是1,可以输入最少的样本数的整数,或者最少样本数占样本总数的百分比。如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。之前的10万样本项目使用min_samples_leaf的值为5,仅供参考。

9.参考文献

1.刘建平统计学习
2.李航统计学习方法

posted @ 2022-07-23 14:06  呵呵哈希  阅读(386)  评论(0编辑  收藏  举报