2024.10.8
机器学习Ch2作业
一. 单选题(共2题,40分)
1. (单选题)在评价模型的性能时,一般是更希望算法模型的()
- A. 训练误差小
- B. 测试误差小
- C. 泛化误差小
- D. 以上都是
我的答案: C:泛化误差小;
2. (单选题)算法模型“过拟合”会发生的现象有()
- A. 训练误差很小,泛化性能差
- B. 测试误差很大,泛化性能强
- C. 训练误差很大,泛化性能强
- D. 测试误差很小,泛化性能强
我的答案: A:训练误差很小,泛化性能差;
二. 简答题(共1题,20分)
3. (简答题)简述划分出测试集的三种方法留出法、交叉验证法和自助法的优劣。
- 我的答案:
-
1. 留出法
优点:
简单易懂,实施方便。
适用于大规模数据集,减少了计算成本。
缺点:
测试集的划分可能导致评估结果的不稳定,尤其是数据量小的情况下。
模型评估的结果依赖于一次随机划分,可能无法全面反映模型性能。
2. 交叉验证法
优点:
提供了更可靠的模型评估,能有效减小评估结果的方差。
每个样本都有机会作为训练集和测试集,利用数据更充分。
缺点:
计算开销较大,尤其是在数据集较大时。
复杂度高,实施相对复杂。
3. 自助法
优点:
可以有效利用小数据集,适用于样本量不足的情况。
允许重复抽样,使得模型评估的结果更加稳健。
缺点:
测试集和训练集可能会有重叠,导致评估结果的偏差。
对于某些数据分布,可能不够全面。
三. 多选题(共1题,20分)
4. (多选题)评估模型时,划分测试集的原则有()
- A. 测试集应该尽可能与训练集互斥
- B. 训练集和测试集的划分要尽可能保持数据分布一致(分层采样)
- C. 一般采用多次重复试验
- D. 以上都不对
我的答案: ABC:测试集应该尽可能与训练集互斥; 训练集和测试集的划分要尽可能保持数据分布一致(分层采样); 一般采用多次重复试验;
四. 填空题(共1题,20分)
5. (填空题)十折交叉验证法中把数据集分成()份,()份作为测试集,剩余的()作为训练集,需要把()次的过程测试结果平均作为最终的测试结果。
- 我的答案:
- (1) 10
- (2) 1
- (3) 9
- (4) 10