ML很重要的一点是避免数据泄露的风险:
1、数据预处理造成数据泄露
在数据标准化(如StandardScaler)的时候,如果直接对所有数据(训练集+验证集/测试集)统一计算均值/方差并标准化,训练过程会隐式利用测试集分布信息,导致模型评估结果被高估,失去真实性。
通用防泄露原则:
🔒 黄金法则:
- 测试集应完全隔离:从数据清洗、特征工程到模型训练,测试集仅能参与最终评估的
predict()步骤。 - 交叉验证的嵌套性:任何依赖数据分布的操作(标准化、降维、特征选择等)必须在每一折的训练子集内独立完成。
本文来自博客园,作者:计算之道,转载请注明原文链接:https://www.cnblogs.com/jszd/p/18990129
浙公网安备 33010602011771号