集成学习--Stacking - 指南

Stacking 概述

Stacking（堆叠泛化）是一种集成学习技巧，依据结合多个基模型的预测结果作为新特征，再训练一个元模型（meta-model）进行最终预测。其核心思想是利用不同模型的优势，提升泛化性能。

Stacking 基本流程

基模型训练
使用训练数据训练多个不同的基模型（如决策树、SVM、神经网络等），生成对训练集和验证集的预测结果。

生成元特征
将基模型对训练集的预测结果作为新特征（称为元特征），同时保留原始特征（可选）。通常通过交叉验证避免材料泄露。

元模型训练
基于生成的元特征训练元模型（如线性回归、逻辑回归等），用于最终预测。元模型的任务是学习如何最优组合基模型的输出。

Stacking 实现示例（Python）

以下代码使用 scikit-learn 实现简单的两层 Stacking：

from sklearn.ensemble import StackingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.datasets import make_classification
# 生成示例数据
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
# 定义基模型和元模型
base_models = [
    ('dt', DecisionTreeClassifier(random_state=42)),
    ('svm', SVC(probability=True, random_state=42))
]
meta_model = LogisticRegression()
# 构建 Stacking 分类器
stacking_clf = StackingClassifier(
    estimators=base_models,
    final_estimator=meta_model,
    cv=5  # 使用5折交叉验证生成元特征
)
# 训练和评估
stacking_clf.fit(X, y)
print("Stacking accuracy:", stacking_clf.score(X, y))

Stacking 关键注意事项

避免过拟合

采用交叉验证生成元特征，防止基模型在训练集上过拟合影响元模型。
限制基模型复杂度，避免元模型过度依赖某个基模型。

模型多样性

选择差异化的基模型（如线性模型与非线性模型组合），提升集成效果。

计算成本

Stacking 需要训练多个模型和元模型，可能比单一模型或简单投票法更耗时。

Stacking 变体

多层级 Stacking：增加更多堆叠层，每层使用前一层的预测作为输入。
简化版 Stacking：仅使用基模型的预测作为元特征，忽略原始特征以减少维度。

Stacking 在 Kaggle 等竞赛中表现优异，但需平衡性能提升与建立复杂度。

posted @ 2026-01-22 11:14 clnchanpin 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部