完整教程：决策树的学习

一、整体框架与核心定位

本 PPT 围绕机器学习中的树模型展开，核心聚焦决策树算法，系统讲解其基本概念、组成结构、训练与测试流程、关键技术（特征切分）及实际构造实例，最终辅以课堂练习巩固知识，逻辑清晰，从理论到实践逐步递进。

二、决策树基础概念

根节点：整个决策树的第一个选择点，是特征选择的起点。

非叶子节点与分支：决策过程中的中间环节，每个非叶子节点对应一个特征判断，分支则代表该特征的不同取值。

叶子节点：决策的最终结果，每个叶子节点对应一个具体的分类或回归结论。

三、决策树的训练与测试

四、特征切分的核心：衡量标准与计算

（一）核心问题

构建决策树的关键是 “如何选择特征作为节点（如根节点、子节点）”，目标是让每个节点能 “更好地切分数据”，提升分类效果。

（二）核心衡量标准：熵

不确定性越大，熵值越大；不确定性越小，熵值越小。

极端情况：当(p=0)或(p=1)时，H(p)=0（随机变量完全确定，无不确定性）；当(p=0.5)时，H(p)=1（随机变量不确定性最大）。

A 集合[1,1,1,1,1,1,1,1,2,2]：资料类别集中，不确定性小，熵值较低。

B 集合[1,2,3,4,5,6,7,8,9,1]：数据类别分散，不确定性大，熵值较高。

决策树目标：通过节点分支后，使数据类别的熵值变小（降低不确定性，让同类内容更集中）。

（三）特征选择依据：信息增益

五、决策树构造实例

（一）实例背景

数据：14 天的打球情况记录（9 天打球，5 天不打球）。

否有风）。就是特征：4 种环境特征（outlook / 天气、temperature / 温度、humidity / 湿度、windy /

目标：基于数据和特征构造决策树，判断 “是否适合打球”。

（二）构造步骤（以 outlook 特征为例）

outlook=sunny：对应信息的熵值为 0.971。

outlook=overcast：对应数据全为 “打球”，熵值为 0。

outlook=rainy：对应数据的熵值为 0.971。

计算 outlook 特征的条件熵：根据各分支概率加权求和，即514*0.971+414*0+514*0.971=0.693。
计算信息增益：初始熵 - 条件熵 = 0.940 - 0.693 = 0.247。
特征选择：用同样方法计算 temperature、humidity、windy 的信息增益，选择信息增益最大的特征作为根节点；后续子节点再从剩余特征中重复此过程，逐步构建完整决策树。

六、课堂练习

否有脚蹼）和 5 条数据，要求学员基于所学方法构造决策树，巩固特征选择、熵与信息增益计算等核心知识点。就是给予 “判断生物是否属于鱼类” 的材料集，涵盖 2 个特征（不浮出水面是否可以生存、

posted on 2025-08-20 10:59 ljbguanli 阅读(13) 评论(0) 收藏举报

Comet AI浏览器 🚀智能搜索新时代