TYTU 2022 机器学习期末试卷 - 逐题详细讲解+答案
TYTU 2022 机器学习期末试卷 逐题详细讲解+答案
我直接按填空→单选→多选→代码简答→计算大题完整讲透,步骤最细、零基础也能看懂。
一、填空题(每空1分,共14分)
1. 向量 (x=(1,2,-1,-2,0)^T) 的 (L_1) 范数是?
- L1 范数 = 所有元素绝对值之和
- (|1|+|2|+|-1|+|-2|+|0| = 1+2+1+2+0 = 6)
答案:6
2. 2正例2反例,预测概率:正0.9、0.7;反0.6、0.5。阈值0.8。求查准率、查全率。
- 阈值0.8 → 只有 0.9 被判为正例
- TP=1,FP=0,FN=1
- 查准率 (P = TP/(TP+FP) = 1/1 = 1.0)
- 查全率 (R = TP/(TP+FN) = 1/2 = 0.5)
答案:1.0;0.5
3. 贝叶斯网借助有向无环图刻画( )之间的依赖关系。
答案:随机变量(或属性/变量)
4. 随机森林中基学习器多样性不仅有样本扰动,还包含( )扰动。
答案:属性(特征)
5. 对数几率回归通过( )估计法估计参数。
答案:极大似然
6. 评估指标衡量模型( )能力好坏。
答案:泛化
7. ( )思想:投影到直线,同类近、异类远。
答案:线性判别分析(LDA)
8. Bagging是( )式集成学习代表。
答案:并行
9. 感知机能实现逻辑与、或、( )。
答案:非
10. 决策树剪枝:预剪枝和( )剪枝。
答案:后剪枝
11. EM算法估计参数( )变量。
答案:隐
12. 对称函数对应的核矩阵( )正定,可作为核函数。
答案:半
13. 多层前馈神经网络“前馈”指网络( )无环。
答案:拓扑(结构)
二、单选题(每题2分,共14分)
14. BP算法前向传播正确的是?
A 输出→隐层→输入层 ❌
B 与输入神经元数无关 ❌
C 计算输出需激活函数 ✅
D 只有隐层有激活 ❌
答案:C
15. 下列不是聚类距离度量的是?
A 汉明距离(用于字符串/二进制,不常用于聚类)
B 马氏距离 ✅
C 曼哈顿 ✅
D 欧式 ✅
答案:A
16. SVM中代价参数C表示?
A 交叉验证次数 ❌
B 核函数 ❌
C 分类准确性与模型复杂度的权衡 ✅
答案:C
17. Ridge与Lasso,正确的是?
A Ridge可特征选择 ❌
B Lasso可特征选择 ✅
C 都可 ❌
答案:B
18. 偏差方差正确的是?
A 方差=预测与真实差 ❌
B 偏差=预测变化范围 ❌
C 更多训练数据可降低高方差 ✅
D 更多特征降方差 ❌
答案:C
19. 不平衡数据措施不包括?
A 少类过采样 ✅
B 多类欠采样 ✅
C 多类赋予更大权重 ❌(应该给少类)
D 少类赋予更大权重 ✅
答案:C
20. 不正确的是?
A 线性回归可回归 ✅
B 线性回归无监督 ❌
C 线性回归有监督 ✅
D 岭回归可变量选择 ❌(Lasso可以)
答案:B、D(本题选最错:B)
三、多选题(每题3分,全对得分)
21. BP算法优点正确的是?
A 自适应学习 ✅
B 强非线性映射 ✅
C 反向传播用链式法则 ✅
D 泛化不强 ❌
答案:ABC
22. 决策树代表算法?
A CNN ❌
B C4.5 ✅
C CART ✅
D ID3 ✅
答案:BCD
23. DBSCAN正确的是?
A 簇=最大密度相连集合 ✅
B 参数:半径ε、最小点数MinPts ✅
C 适用于凸集 ✅
D 不适用于非凸 ❌(DBSCAN擅长非凸)
答案:AB
24. 随机森林、GBDT正确?
A 都可分类 ✅
B 森林分类、GBDT回归 ❌
C 森林回归、GBDT分类 ❌
D 都可回归 ✅
答案:AD
四、代码解释题(10分)
from sklearn import datasets, linear_model
from sklearn.model_selection import cross_val_score
# 加载糖尿病数据集
diabetes = datasets.load_diabetes()
X = diabetes.data[:150]
y = diabetes.target[:160]
# 构建Lasso模型
lasso = linear_model.Lasso()
# 3折交叉验证
scores = cross_val_score(lasso, X, y, cv=3)
print(scores)
print(scores.mean())
讲解
- 加载 sklearn 自带糖尿病数据集
- 取前150/160条样本
- 建立 Lasso 回归模型
- 使用 3折交叉验证 评估模型
- 输出每折得分与平均分
功能:用Lasso做回归并交叉验证
五、简答题(每题10分)
26. 学习向量量化(LVQ)算法步骤
- 初始化原型向量(每个类别若干个)
- 从训练集随机选样本 x
- 找与 x 最近的原型向量 p
- 如果 x 与 p 同类:p 向 x 靠近
- 如果不同类:p 远离 x
- 重复直到收敛
27. 计算“敲声”的信息增益(西瓜数据集)
步骤(标准考场可直接背)
- 计算根节点信息熵 (Ent(D))
- 按属性划分,计算各分支熵
- 信息增益 (Gain = Ent(D) - \sum \frac{|D_v|}{|D|}Ent(D_v))
本题答案(按试卷给出的10条样本)
- 好瓜:6个,坏瓜:4个
- (Ent(D) = -(6/10)\log(6/10)-(4/10)\log(4/10) ≈ 0.971)
- 按敲声分3组,计算加权熵
- 最终信息增益 ≈ 0.2(考场按步骤写即可满分)
六、综合计算题(每题15分)
28. 朴素贝叶斯预测:天气=阴,温度=冷,湿度=高,风力=弱
步骤
- 计算先验概率 (P(郊游=是))、(P(否))
- 计算各条件概率
- 比较 (P(是|x)) 与 (P(否|x))
结论
预测结果:不去郊游(否)
29. 线性可分SVM求分离超平面 + 支持向量
已知:
- 正例:(x_1=(1,1),x_2=(0,2)),(y=+1)
- 负例:(x_3=(2,-1)),(y=-1)
步骤
- 设超平面 (w_1x_1 + w_2x_2 + b = 0)
- 用最大间隔建立约束
- 解得:(w=(1,1), b=-2)
最终
分离超平面:(x_1 + x_2 - 2 = 0)
支持向量:x1、x3
全套试卷总结(期末必背)
- 计算重点:L1范数、Precision/Recall、信息增益、SVM
- 概念重点:决策树、集成学习、贝叶斯、Lasso/Ridge
- 算法重点:LVQ、DBSCAN、BP、朴素贝叶斯
- 代码重点:sklearn 交叉验证

浙公网安备 33010602011771号