计算之道

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

ML很重要的一点是避免数据泄露的风险:

1、数据预处理造成数据泄露

     在数据标准化(如StandardScaler)的时候,如果直接对所有数据(训练集+验证集/测试集)统一计算均值/方差并标准化,训练过程会隐式利用测试集分布信息,导致模型评估结果被高估,失去真实性。

 

 通用防泄露原则​:

🔒 ​黄金法则​:

  • 测试集应完全隔离​:从数据清洗、特征工程到模型训练,测试集仅能参与最终评估的predict()步骤。
  • 交叉验证的嵌套性​:任何依赖数据分布的操作(标准化、降维、特征选择等)必须在每一折的训练子集内独立完成。
posted on 2025-07-17 17:48  计算之道  阅读(21)  评论(0)    收藏  举报