1. (单选题)在评价模型的性能时，一般是更希望算法模型的（）
A. 训练误差小
B. 测试误差小
C. 泛化误差小
D. 以上都是
我的答案: C:泛化误差小;
2. (单选题)算法模型“过拟合”会发生的现象有（）
A. 训练误差很小，泛化性能差
B. 测试误差很大，泛化性能强
C. 训练误差很大，泛化性能强
D. 测试误差很小，泛化性能强
我的答案: A:训练误差很小，泛化性能差;
二. 简答题（共1题，20分）
3. (简答题)简述划分出测试集的三种方法留出法、交叉验证法和自助法的优劣。
我的答案：
留出法

优点：

简单快速：这种方法只需要将数据随机分成训练集和测试集两部分，操作简单且效率高。

易于实现：不需要复杂的流程，易于理解和编程实现。

缺点：方差大：由于数据集被一次性分割，如果数据集本身较小或分布不均匀，则得到的训练集和测试集可能无法很好地反映整体数据的特性，从而影响评估结果的可靠性。依赖于数据分割比例：不同的分割比例可能会导致不同的评估结果，难以确定最优的分割比例。

交叉验证法

优点：

减少方差：通过多次划分数据集进行训练和测试，每次使用不同的子集作为测试集，从而使得评估结果更加稳定可靠。充分利用数据：几乎所有的数据都被用来训练模型，减少了数据浪费。

灵活性：可以采用不同的交叉验证策略，如K折交叉验证、Leave-One-Out等，适应不同的场景需求。

缺点：

计算复杂度高：相比于留出法，交叉验证需要多次训练模型，增加了计算成本。

实施复杂：相较于留出法，交叉验证的实现相对复杂，尤其是在处理非独立同分布的数据时需要更多的考虑。自助法

优点：重复利用数据：通过有放回抽样来构造训练集，能够有效地估计模型的方差。

适用性强：特别适合于数据集较小或分布不均匀的情况，能够较好地估计模型的偏差和方差。

缺点：

计算量大：需要多次抽样并训练模型，计算成本较高。

可能产生重复样本：由于是有放回抽样，训练集中可能会出现重复的观测值，这可能会影响模型的训练过程。不适合依赖顺序的数据：自助法对于时间序列等依赖顺序的数据不太适用，因为它破坏了原本的时间顺序关系。

三. 多选题（共1题，20分）
4. (多选题)评估模型时，划分测试集的原则有（）
A. 测试集应该尽可能与训练集互斥
B. 训练集和测试集的划分要尽可能保持数据分布一致（分层采样）
C. 一般采用多次重复试验
D. 以上都不对
我的答案: ABC:测试集应该尽可能与训练集互斥; 训练集和测试集的划分要尽可能保持数据分布一致（分层采样）; 一般采用多次重复试验;
四. 填空题（共1题，20分）
5. (填空题)十折交叉验证法中把数据集分成（）份，（）份作为测试集，剩余的（）作为训练集，需要把（）次的过程测试结果平均作为最终的测试结果。
我的答案：
(1) 10
(2) 9
(3) 1
(4) 10

posted on 2024-09-28 14:43 淮竹i 阅读(21) 评论(0) 收藏举报

刷新页面返回顶部

导航