机器学习Sklearn系列:(三)决策树

决策树

熵的定义

如果一个随机变量X的可能取值为X={x1,x2,..,xk},其概率分布为P(X=x)=pi(i=1,2,...,n),则随机变量X的熵定义为\(H(x) = -\sum{p(x)logp(x)}=\sum{p(x)log{\frac{1}{p(x)}}}\)。需要注意的是,熵越大,随机变量的不确定性就越大。

当n = 2的时候,\(H(p)=-plogp-(1-p)log(1-p)\)也就是交叉熵的损失函数。

条件熵

条件熵主要是用来计算,在莫一列数据X选中的条件下,其标签Y的熵大小,这样可以帮助计算,那一列数据对应的标签更加简洁易分。 条件熵计算公式如下,其中,\(p_i =P(X=x_i)\)

\[H(Y|X) = \sum_{i=1}^n p_iH(Y|X=x_i) \]

具体来说,条件熵公式如何使用到结构化的数据中来的,这里的X表示的某一列的特征,Xi表示该特征的一个子类特征,这里\(H(Y_i)\)表示Xi这一类子特征对应的标签Y的熵。K表示标签的类别,下面公式中,\(Y_{ik}\),表示第Xi类特征对应的标签\(Y_i\)的种类。

\[\begin{equation} \begin{aligned} H(Y|X) &= \sum^n_{i=1}\frac{|X_i|}{|X|}H(Y_i) \\ &= -\sum^n_{i=1}\frac{|X_i|}{|X|}(\sum^K_{k=1}\frac{|Y_{ik}|}{|Y_i|}log_2\frac{|Y_{ik}|}{|Y_i|}) \end{aligned} \end{equation} \]

举个具体的例子:

特征X 标签Y
1 1
1 0
1 1
1 1
2 1
2 1
2 0

这对特征Xi = 1的条件熵的计算如下:

\[H(Y|X_{i=1}) = -\frac{4}{7}(\frac{1}{4}log_2\frac{1}{4} + \frac{3}{4}log_2\frac{3}{4}) \]

信息增益

信息增益的计算方式如下,其中,由于H(D)是个固定值,H(D|A)越小,信息增益就越大,这样这个特征就越简洁,也就是说这个特征能够最大化的去区分label , 这里 X代表的是莫一列特征,Y代表的是数据集的标签。

\[g(Y,X) = H(Y)-H(Y|X) \]

决策树算法

ID3

ID3 算法和原理就是,使用信息增益来挑选特征,优先挑选信息增益最大的特征。其具体决策树生成过程如下:

1. 首先计算所有特征的信息增益,挑选一个最大的特征,作为节点的特征
2. 对挑选出来的子节点递归调用方法 1
3. 当特征信息增益小于阈值,或者没有特征可以选择,或者可选特征小于阈值等,停止。

C4.5算法

上述算法有一个问题,假设特征X有两列特征,其信息增益差不多,但是某一列数据特别混乱,这个时候应该避免选择这一列作为根结点,而C4.5算法的核心就是通过给信息增益下面,除一个这一列特征的熵,从而减少这一列数据的信息增益。也就是说,如果某一列特征越混乱,那么其最终得到的信息增益就越小,从而避免了上述的问题。 具体公式为:

\[g_R(Y,X) = \frac{g(Y,X)}{H_X(Y)} \]

其中,n为

\[H_X(Y)=-\sum_{i=1}^n\frac{|X_i|}{|X|}log_2\frac{X_i}{X} \]

CART算法

CART算法的思路和上面两个算法是一样的,只不过这里用来评估特征混乱度的方法是用的基尼指数。其中,基尼指数越大,不确定性越大,和熵是类似的。

基尼指数的定义如下:其中,\(p_k\)为样本点属于第k类的概率。

\[Gini(p) = \sum^K_{k=1}p_k(1-p_k)=1-\sum^K_{k=1}p_k^2 \]

如果将基尼指数用到结构化数据集中:

\[Gini(Y) = 1-\sum_{k=1}^K(\frac{|Y_k|}{Y})^2 \]

在特征为X标签为Y的条件下,其基尼指数为:其中,\(Y_1,Y_2\)表示,特征X下的子类别\(X_1,X_2\)对应的标签。

\[Gini(Y,X) = \frac{|X_1|}{|X|}Gini(Y_1)+\frac{|X_2|}{|X|}Gini(Y_2) \]

决策树剪肢

决策树减肢可以减轻决策树的复杂度,同时确保决策树能够保持一定的正确率,剪肢的方法,一般是从最深的一层开始,减去节点,然后看accuracy,如果accuracy提升了,就可以减去。也可以使用其他基于阈值的方法,例如下一层的不纯度低于某个阈值,就可以直接不分裂等等。

sklearn中决策树的使用

参数

class sklearn.tree.DecisionTreeClassifier(*, criterion='gini', 
splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, 
min_weight_fraction_leaf=0.0, max_features=None, random_state=None, 
max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, 
class_weight=None, ccp_alpha=0.0)

criterion{“gini”, “entropy”}, default=”gini” 确定决策树是基于基尼指数还是熵

max_depth 树的层数,限制树的最大深度,超过设定深度的树枝全部剪掉,这是用得最广泛的剪枝参数,在高维度低样本量时非常有效。决策树多生长一层,对样本量的需求会增加一倍,所以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时,建议从=3开始尝试,看看拟合的效果再决定是否增加设定深度。实际层数为 max_depth +1 考虑根

min_impurity_decrease 限制决策树的生长,如果节点的不纯度(GINI,GAIN)小于这个阈值,就不在生成子节点

min_impurity_split :不纯度必须大于这个值,不然不分裂

min_impurity_decrease限制信息增益的大小,信息增益小于设定数值的分枝不会发生。这是在0.19版本种更新的功能,在0.19版本之前时使用min_impurity_split。

random_state 随机数种子,固定种子之后,训练的模型是一样的

class_weight 可以用来定义某一个类别的权重,让这一个类比在计算的时候,信息增益变得稍微大一些

splitter也是用来控制决策树中的随机选项的,有两种输入值,输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看),输入“random",决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合,用这两个参数来帮助你降低树建成之后过拟合的可能性。当然,树一旦建成,我们依然是使用剪枝参数来防止过拟合。所以要想泛化好,最好splitter设置成random。

和剪肢相关的参数:

min_samples_leaf ** ** 限定,一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生,或者,分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生

一般搭配max_depth使用,在回归树中有神奇的效果,可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合,设置得太大就会阻止模型学习数据。一般来说,建议从=5开始使用。如果叶节点中含有的样本量变化很大,建议输入浮点数作为样本量的百分比来使用。同时,这个参数可以保证每个叶子的最小尺寸,可以在回归问题中避免低方差,过拟合的叶子节点出现。对于类别不多的分类问题,=1通常就是最佳选择。

min_samples_split限定,一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生。

max_features限制分枝时考虑的特征个数,比如一个样本特征为13个,限制之后只能使用有限个特征进行分类任务。超过限制个数的特征都会被舍弃。和max_depth异曲同工,max_features是用来限制高维度数据的过拟合的剪枝参数,但其方法比较暴力,是直接限制可以使用的特征数量而强行使决策树停下的参数,在不知道决策树中的各个特征的重要性的情况下,强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合,建议使用PCA,ICA或者特征选择模块中的降维算法。

class_weight 标签权重,给某一类的标签更大的权重,当样本不均衡的时候,可以考虑使用

min_weight_fraction_leaf有了权重之后,样本量就不再是单纯地记录数目,而是受输入的权重影响了,因此这时候剪枝,就需要搭配min_ weight_fraction_leaf这个基于权重的剪枝参数来使用。另请注意,基于权重的剪枝参数(例如min_weight_ fraction_leaf)将比不知道样本权重的标准(比如min_samples_leaf)更少偏向主导类。如果样本是加权的,则使用基于权重的预修剪标准来更容易优化树结构,这确保叶节点至少包含样本权重的总和的一小部分。

注意在sklearn中实现的决策树都是二叉树

使用模型训练数据:

model = tree.DecisionTreeClassifier()

model.fit(X,y)

model.predict(X_val)

sklearn中,可以输出决策树特征的重要性

clf.feature_importances_

回归树

在分类问题中决策树的每一片叶子都代表的是一个 class;在回归问题中,决策树的每一片叶子表示的是一个预测值,取值是连续的。

决策树还可以做回归任务,回归树种的参数和上面分类树的参数是一模一样的,唯一的区别是,回归树没有class_weight这个参数,因为没有类别不平衡这个说法

X = [[0, 0], [2, 2]]
y = [0.5, 2.5]

clf = tree.DecisionTreeRegressor()
clf = clf.fit(X, y)
clf.predict([[1, 1]])


array([0.5])

决策树可视化

可以使用graphviz安装包:pip install graphviz

一个例子:

这里的参数,class_names 表示类别的名称,filled表示填充颜色,rounded 表示框的形状

feature_name = ["A","B","C"]
​
import graphviz

dot_data = tree.export_graphviz(clf
                                ,feature_names= feature_name
                                ,class_names=["1","2","3"]
                                ,filled=True
                                ,rounded=True
                                ,out_file=None
                               )
graph = graphviz.Source(dot_data)
graph
posted @ 2021-07-16 20:16  Neo0oeN  阅读(1077)  评论(0编辑  收藏  举报