2024.10.8

机器学习Ch2作业

一. 单选题（共2题，40分）

1. (单选题)在评价模型的性能时，一般是更希望算法模型的（）

A. 训练误差小
B. 测试误差小
C. 泛化误差小
D. 以上都是

我的答案: C:泛化误差小;

2. (单选题)算法模型“过拟合”会发生的现象有（）

A. 训练误差很小，泛化性能差
B. 测试误差很大，泛化性能强
C. 训练误差很大，泛化性能强
D. 测试误差很小，泛化性能强

我的答案: A:训练误差很小，泛化性能差;

二. 简答题（共1题，20分）

3. (简答题)简述划分出测试集的三种方法留出法、交叉验证法和自助法的优劣。

我的答案：

1. 留出法

优点：

简单易懂，实施方便。

适用于大规模数据集，减少了计算成本。

缺点：

测试集的划分可能导致评估结果的不稳定，尤其是数据量小的情况下。

模型评估的结果依赖于一次随机划分，可能无法全面反映模型性能。

2. 交叉验证法

优点：

提供了更可靠的模型评估，能有效减小评估结果的方差。

每个样本都有机会作为训练集和测试集，利用数据更充分。

缺点：

计算开销较大，尤其是在数据集较大时。

复杂度高，实施相对复杂。

3. 自助法

优点：

可以有效利用小数据集，适用于样本量不足的情况。

允许重复抽样，使得模型评估的结果更加稳健。

缺点：

测试集和训练集可能会有重叠，导致评估结果的偏差。

对于某些数据分布，可能不够全面。

三. 多选题（共1题，20分）

4. (多选题)评估模型时，划分测试集的原则有（）

A. 测试集应该尽可能与训练集互斥
B. 训练集和测试集的划分要尽可能保持数据分布一致（分层采样）
C. 一般采用多次重复试验
D. 以上都不对

我的答案: ABC:测试集应该尽可能与训练集互斥; 训练集和测试集的划分要尽可能保持数据分布一致（分层采样）; 一般采用多次重复试验;

四. 填空题（共1题，20分）

5. (填空题)十折交叉验证法中把数据集分成（）份，（）份作为测试集，剩余的（）作为训练集，需要把（）次的过程测试结果平均作为最终的测试结果。

我的答案：: (1) 10; (2) 1; (3) 9; (4) 10

posted @ 2024-12-25 01:56 cvjj 阅读(36) 评论(0) 收藏举报

刷新页面返回顶部

syldbk