决策树训练速度提升99%的新方法
决策树训练加速新方法
梯度提升决策树是机器学习中广泛使用的模型,因其在大规模在线搜索应用中兼具高准确性和高效率而备受青睐。然而当训练数据包含大量潜在特征(如数千个)而实际仅需使用部分(如数百个)时,传统训练方法会因评估大量无关特征而导致效率低下。
在即将召开的国际人工智能与统计会议上发表的研究中,提出了一种新型梯度提升决策树训练方法。当总特征集规模远大于必要特征集时,该方法相比现有最高效的前序技术(梯度提升特征选择)展现出显著优势。
技术实现
-
特征预处理:
- 对每个特征值进行归一化处理,使其落入[0,1]区间
- 随机将特征划分为两组,创建两个伪特征(其值为组内特征归一化值之和)
- 重复该过程多次,生成多组均匀划分特征集的伪特征对
-
训练优化:
- 在每个决策点评估伪特征对而非原始特征
- 选择预测效果更优的伪特征继续二分
- 通过迭代二分最终确定单个特征作为决策标准
- 评估次数从O(n)降至O(log n)
实验验证
在三个标准基准测试中验证该方法:
| 数据集 | 准确率差异 | 训练加速倍数 |
|---|---|---|
| 手写数字识别 | ±0.5% | 10倍 |
| 航班延误预测 | ±0.3% | 2倍 |
| 图像识别 | ±0.7% | 100倍 |
多任务学习优势
该方法特别适用于多任务学习场景:
- 同时训练三个任务时,每个任务的性能均优于单独训练
- 相比标准多任务训练方法,在所有任务上都展现出性能提升
技术原理
决策树模型通过序列化构建多棵二叉树(可能达数百棵),每棵新树致力于最小化前序树的残差误差(即梯度提升)。模型整体输出是所有树的聚合结果。传统方法在每个决策点需要评估所有特征的最佳分割阈值,而新方法通过伪特征二分显著降低了计算复杂度。
理论分析表明,给定足够训练数据,该近似方法仍能收敛到最优决策树集。实验数据证实该方法在保持精度的同时,大幅提升了训练效率。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码


浙公网安备 33010602011771号