计算之道

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
最简单的例子:

原始数据(1000个样本) ↓ ├── 训练验证集(800个样本,80%) │ │ │ ├── 第一步:五折交叉验证找最佳参数 │ │ │ └── 第二步:用最佳参数在整个800个样本上重新训练 │ └── 测试集(200个样本,20%) │ └── 第三步:训练完成后预测一次


1. 数据划分的正式名称

原始数据集 (Original Dataset)
    ↓
├── 开发集 (Development Set) / 训练验证集 (Train-Validation Set)
│   │
│   ├── 用于:模型开发、调参、选择
│   │
│   └── 占比:通常 80%
│
└── 测试集 (Test Set) / 保留集 (Hold-out Set)
    │
    └── 用于:最终性能评估
    │
    └── 占比:通常 20%

3. 标准实验流程描述

1. 数据集划分 (Dataset Splitting)
   - 将完整数据集划分为开发集和测试集
   - 测试集在整个模型开发过程中保持隔离

2. 模型开发阶段 (Model Development Phase)
   a. 在开发集上执行K折交叉验证
   b. 通过交叉验证结果选择最佳超参数组合
   c. 使用选定超参数在整个开发集上重新训练模型

3. 最终评估阶段 (Final Evaluation Phase)
   - 在隔离的测试集上进行单次性能评估
   - 报告测试集性能作为模型泛化能力指标

4. 学术论文中的标准写法

"我们采用5折交叉验证在开发集上进行超参数调优。
获得最优超参数后,使用这些参数在整个开发集上
重新训练最终模型。该模型随后在独立测试集上评估。"

或者:
\section{实验设置}
数据集包含1000个样本。我们采用80-20划分,
将800个样本作为开发集,200个样本作为测试集。

在开发集上,我们使用5折交叉验证进行超参数调优。
交叉验证后,使用最佳超参数在整个开发集上重新训练最终模型。

最终模型性能在测试集上评估,确保评估的无偏性。

🔬 专业术语对比

 
通俗说法专业术语英文术语
训练验证集 开发集 Development Set
调参数 超参数优化 Hyperparameter Tuning
五折交叉验证 5折交叉验证 5-fold Cross-validation
最终测试 测试集评估 Test Set Evaluation
模型泛化能力 外推性能 Out-of-sample Performance
posted on 2025-12-28 11:00  计算之道  阅读(2)  评论(0)    收藏  举报