11.10
1. (单选题)在评价模型的性能时,一般是更希望算法模型的()
- A. 训练误差小
- B. 测试误差小
- C. 泛化误差小
- D. 以上都是
我的答案: C:泛化误差小;
2. (单选题)算法模型“过拟合”会发生的现象有()
- A. 训练误差很小,泛化性能差
- B. 测试误差很大,泛化性能强
- C. 训练误差很大,泛化性能强
- D. 测试误差很小,泛化性能强
我的答案: A:训练误差很小,泛化性能差;
二. 简答题(共1题,20分)
3. (简答题)简述划分出测试集的三种方法留出法、交叉验证法和自助法的优劣。
- 我的答案:
-
一、留出法
优点: 1. 相对简单直观,容易实现。 2. 计算开销较小,在数据量较大时执行速度较快。 缺点: 1. 若划分不当,可能会导致训练集和测试集的数据分布差异较大,影响评估结果的准确性。 2. 只进行了一次划分,评估结果可能具有较大的随机性,不够稳定可靠。 二、交叉验证法 优点: 1. 能够充分利用数据,通过多次划分和训练评估,使得评估结果更加稳定可靠。 2. 可以有效地评估模型在不同数据划分下的性能表现,减少因数据划分不合理带来的偏差。 缺点: 1. 计算开销较大,尤其是在数据量较大、k 值较大时,计算时间会显著增加。 2. 当数据集非常不平衡时,可能会出现某些划分中某些类别数据过少的情况,影响评估结果。 三、自助法 优点: 1. 在数据集较小、难以有效划分训练集和测试集时非常有用,能从有限的数据中尽可能多地进行评估。 2. 可以产生多个不同的训练集和测试集,增加了评估的多样性。 缺点: 1. 会改变原始数据的分布,引入估计偏差。 2. 计算过程相对复杂,不太直观。
三. 多选题(共1题,20分)
4. (多选题)评估模型时,划分测试集的原则有()
- A. 测试集应该尽可能与训练集互斥
- B. 训练集和测试集的划分要尽可能保持数据分布一致(分层采样)
- C. 一般采用多次重复试验
- D. 以上都不对
我的答案: ABC:测试集应该尽可能与训练集互斥; 训练集和测试集的划分要尽可能保持数据分布一致(分层采样); 一般采用多次重复试验;
四. 填空题(共1题,20分)
5. (填空题)十折交叉验证法中把数据集分成()份,()份作为测试集,剩余的()作为训练集,需要把()次的过程测试结果平均作为最终的测试结果。
- 我的答案:
- (1) 10
- (2) 1
- (3) 9
- (4) 10

浙公网安备 33010602011771号