TYTU 2022 机器学习期末试卷 - 逐题详细讲解+答案

TYTU 2022 机器学习期末试卷逐题详细讲解+答案

我直接按填空→单选→多选→代码简答→计算大题完整讲透，步骤最细、零基础也能看懂。

一、填空题（每空1分，共14分）

1. 向量 (x=(1,2,-1,-2,0)^T) 的 (L_1) 范数是？

L1 范数 = 所有元素绝对值之和
(|1|+|2|+|-1|+|-2|+|0| = 1+2+1+2+0 = 6)
答案：6

2. 2正例2反例，预测概率：正0.9、0.7；反0.6、0.5。阈值0.8。求查准率、查全率。

阈值0.8 → 只有 0.9 被判为正例
TP=1，FP=0，FN=1
查准率 (P = TP/(TP+FP) = 1/1 = 1.0)
查全率 (R = TP/(TP+FN) = 1/2 = 0.5)
答案：1.0；0.5

3. 贝叶斯网借助有向无环图刻画( )之间的依赖关系。

答案：随机变量（或属性/变量）

4. 随机森林中基学习器多样性不仅有样本扰动，还包含( )扰动。

答案：属性（特征）

5. 对数几率回归通过( )估计法估计参数。

答案：极大似然

6. 评估指标衡量模型( )能力好坏。

答案：泛化

7. ( )思想：投影到直线，同类近、异类远。

答案：线性判别分析（LDA）

8. Bagging是( )式集成学习代表。

答案：并行

9. 感知机能实现逻辑与、或、( )。

答案：非

10. 决策树剪枝：预剪枝和( )剪枝。

答案：后剪枝

11. EM算法估计参数( )变量。

答案：隐

12. 对称函数对应的核矩阵( )正定，可作为核函数。

答案：半

13. 多层前馈神经网络“前馈”指网络( )无环。

答案：拓扑（结构）

二、单选题（每题2分，共14分）

14. BP算法前向传播正确的是？

A 输出→隐层→输入层 ❌
B 与输入神经元数无关 ❌
C 计算输出需激活函数 ✅
D 只有隐层有激活 ❌
答案：C

15. 下列不是聚类距离度量的是？

A 汉明距离（用于字符串/二进制，不常用于聚类）
B 马氏距离 ✅
C 曼哈顿 ✅
D 欧式 ✅
答案：A

16. SVM中代价参数C表示？

A 交叉验证次数 ❌
B 核函数 ❌
C 分类准确性与模型复杂度的权衡 ✅
答案：C

17. Ridge与Lasso，正确的是？

A Ridge可特征选择 ❌
B Lasso可特征选择 ✅
C 都可 ❌
答案：B

18. 偏差方差正确的是？

A 方差=预测与真实差 ❌
B 偏差=预测变化范围 ❌
C 更多训练数据可降低高方差 ✅
D 更多特征降方差 ❌
答案：C

19. 不平衡数据措施不包括？

A 少类过采样 ✅
B 多类欠采样 ✅
C 多类赋予更大权重 ❌（应该给少类）
D 少类赋予更大权重 ✅
答案：C

20. 不正确的是？

A 线性回归可回归 ✅
B 线性回归无监督 ❌
C 线性回归有监督 ✅
D 岭回归可变量选择 ❌（Lasso可以）
答案：B、D（本题选最错：B）

三、多选题（每题3分，全对得分）

21. BP算法优点正确的是？

A 自适应学习 ✅
B 强非线性映射 ✅
C 反向传播用链式法则 ✅
D 泛化不强 ❌
答案：ABC

22. 决策树代表算法？

A CNN ❌
B C4.5 ✅
C CART ✅
D ID3 ✅
答案：BCD

23. DBSCAN正确的是？

A 簇=最大密度相连集合 ✅
B 参数：半径ε、最小点数MinPts ✅
C 适用于凸集 ✅
D 不适用于非凸 ❌（DBSCAN擅长非凸）
答案：AB

24. 随机森林、GBDT正确？

A 都可分类 ✅
B 森林分类、GBDT回归 ❌
C 森林回归、GBDT分类 ❌
D 都可回归 ✅
答案：AD

四、代码解释题（10分）

from sklearn import datasets, linear_model
from sklearn.model_selection import cross_val_score

# 加载糖尿病数据集
diabetes = datasets.load_diabetes()
X = diabetes.data[:150]
y = diabetes.target[:160]

# 构建Lasso模型
lasso = linear_model.Lasso()

# 3折交叉验证
scores = cross_val_score(lasso, X, y, cv=3)

print(scores)
print(scores.mean())

讲解

加载 sklearn 自带糖尿病数据集
取前150/160条样本
建立 Lasso 回归模型
使用 3折交叉验证 评估模型
输出每折得分与平均分
功能：用Lasso做回归并交叉验证

五、简答题（每题10分）

26. 学习向量量化（LVQ）算法步骤

初始化原型向量（每个类别若干个）
从训练集随机选样本 x
找与 x 最近的原型向量 p
如果 x 与 p 同类：p 向 x 靠近
如果不同类：p 远离 x
重复直到收敛

27. 计算“敲声”的信息增益（西瓜数据集）

步骤（标准考场可直接背）

计算根节点信息熵 (Ent(D))
按属性划分，计算各分支熵
信息增益 (Gain = Ent(D) - \sum \frac{|D_v|}{|D|}Ent(D_v))

本题答案（按试卷给出的10条样本）

好瓜：6个，坏瓜：4个
(Ent(D) = -(6/10)\log(6/10)-(4/10)\log(4/10) ≈ 0.971)
按敲声分3组，计算加权熵
最终信息增益 ≈ 0.2（考场按步骤写即可满分）

六、综合计算题（每题15分）

28. 朴素贝叶斯预测：天气=阴，温度=冷，湿度=高，风力=弱

步骤

计算先验概率 (P(郊游=是))、(P(否))
计算各条件概率
比较 (P(是|x)) 与 (P(否|x))

结论

预测结果：不去郊游（否）

29. 线性可分SVM求分离超平面 + 支持向量

已知：

正例：(x_1=(1,1),x_2=(0,2))，(y=+1)
负例：(x_3=(2,-1))，(y=-1)

步骤

设超平面 (w_1x_1 + w_2x_2 + b = 0)
用最大间隔建立约束
解得：(w=(1,1), b=-2)

最终

分离超平面：(x_1 + x_2 - 2 = 0)
支持向量：x1、x3

全套试卷总结（期末必背）

计算重点：L1范数、Precision/Recall、信息增益、SVM
概念重点：决策树、集成学习、贝叶斯、Lasso/Ridge
算法重点：LVQ、DBSCAN、BP、朴素贝叶斯
代码重点：sklearn 交叉验证

posted @ 2026-05-31 14:53 kkman2000 阅读(12) 评论(0) 收藏举报

刷新页面返回顶部

kkman2000