2024.10.8

机器学习Ch2作业

一. 单选题(共2题,40分)

1. (单选题)在评价模型的性能时,一般是更希望算法模型的()

  • A. 训练误差小
  • B. 测试误差小
  • C. 泛化误差小
  • D. 以上都是
我的答案: C:泛化误差小;
 

2. (单选题)算法模型“过拟合”会发生的现象有()

  • A. 训练误差很小,泛化性能差
  • B. 测试误差很大,泛化性能强
  • C. 训练误差很大,泛化性能强
  • D. 测试误差很小,泛化性能强
我的答案: A:训练误差很小,泛化性能差;
 

二. 简答题(共1题,20分)

3. (简答题)简述划分出测试集的三种方法留出法、交叉验证法和自助法的优劣。

我的答案:
 

1. 留出法

优点:

简单易懂,实施方便。

适用于大规模数据集,减少了计算成本。

缺点:

测试集的划分可能导致评估结果的不稳定,尤其是数据量小的情况下。

模型评估的结果依赖于一次随机划分,可能无法全面反映模型性能。

2. 交叉验证法

优点:

提供了更可靠的模型评估,能有效减小评估结果的方差。

每个样本都有机会作为训练集和测试集,利用数据更充分。

缺点:

计算开销较大,尤其是在数据集较大时。

复杂度高,实施相对复杂。

3. 自助法

优点:

可以有效利用小数据集,适用于样本量不足的情况。

允许重复抽样,使得模型评估的结果更加稳健。

缺点:

测试集和训练集可能会有重叠,导致评估结果的偏差。

对于某些数据分布,可能不够全面。

三. 多选题(共1题,20分)

4. (多选题)评估模型时,划分测试集的原则有()

  • A. 测试集应该尽可能与训练集互斥
  • B. 训练集和测试集的划分要尽可能保持数据分布一致(分层采样)
  • C. 一般采用多次重复试验
  • D. 以上都不对
我的答案: ABC:测试集应该尽可能与训练集互斥; 训练集和测试集的划分要尽可能保持数据分布一致(分层采样); 一般采用多次重复试验;
 

四. 填空题(共1题,20分)

5. (填空题)十折交叉验证法中把数据集分成()份,()份作为测试集,剩余的()作为训练集,需要把()次的过程测试结果平均作为最终的测试结果。

我的答案:
(1) 10
(2) 1
(3) 9
(4) 10
posted @ 2024-12-25 01:56  cvjj  阅读(9)  评论(0)    收藏  举报