TYTU 2022 机器学习期末试卷 - 逐题详细讲解+答案

TYTU 2022 机器学习期末试卷 逐题详细讲解+答案

我直接按填空→单选→多选→代码简答→计算大题完整讲透,步骤最细、零基础也能看懂。


一、填空题(每空1分,共14分)

1. 向量 (x=(1,2,-1,-2,0)^T) 的 (L_1) 范数是?

  • L1 范数 = 所有元素绝对值之和
  • (|1|+|2|+|-1|+|-2|+|0| = 1+2+1+2+0 = 6)
    答案:6

2. 2正例2反例,预测概率:正0.9、0.7;反0.6、0.5。阈值0.8。求查准率、查全率。

  • 阈值0.8 → 只有 0.9 被判为正例
  • TP=1,FP=0,FN=1
  • 查准率 (P = TP/(TP+FP) = 1/1 = 1.0)
  • 查全率 (R = TP/(TP+FN) = 1/2 = 0.5)
    答案:1.0;0.5

3. 贝叶斯网借助有向无环图刻画( )之间的依赖关系。

答案:随机变量(或属性/变量)


4. 随机森林中基学习器多样性不仅有样本扰动,还包含( )扰动。

答案:属性(特征)


5. 对数几率回归通过( )估计法估计参数。

答案:极大似然


6. 评估指标衡量模型( )能力好坏。

答案:泛化


7. ( )思想:投影到直线,同类近、异类远。

答案:线性判别分析(LDA)


8. Bagging是( )式集成学习代表。

答案:并行


9. 感知机能实现逻辑与、或、( )。

答案:非


10. 决策树剪枝:预剪枝和( )剪枝。

答案:后剪枝


11. EM算法估计参数( )变量。

答案:隐


12. 对称函数对应的核矩阵( )正定,可作为核函数。

答案:半


13. 多层前馈神经网络“前馈”指网络( )无环。

答案:拓扑(结构)


二、单选题(每题2分,共14分)

14. BP算法前向传播正确的是?

A 输出→隐层→输入层 ❌
B 与输入神经元数无关 ❌
C 计算输出需激活函数
D 只有隐层有激活 ❌
答案:C


15. 下列不是聚类距离度量的是?

A 汉明距离(用于字符串/二进制,不常用于聚类)
B 马氏距离 ✅
C 曼哈顿 ✅
D 欧式 ✅
答案:A


16. SVM中代价参数C表示?

A 交叉验证次数 ❌
B 核函数 ❌
C 分类准确性与模型复杂度的权衡
答案:C


17. Ridge与Lasso,正确的是?

A Ridge可特征选择 ❌
B Lasso可特征选择
C 都可 ❌
答案:B


18. 偏差方差正确的是?

A 方差=预测与真实差 ❌
B 偏差=预测变化范围 ❌
C 更多训练数据可降低高方差
D 更多特征降方差 ❌
答案:C


19. 不平衡数据措施不包括

A 少类过采样 ✅
B 多类欠采样 ✅
C 多类赋予更大权重 ❌(应该给少类)
D 少类赋予更大权重 ✅
答案:C


20. 不正确的是?

A 线性回归可回归 ✅
B 线性回归无监督 ❌
C 线性回归有监督 ✅
D 岭回归可变量选择 ❌(Lasso可以)
答案:B、D(本题选最错:B)


三、多选题(每题3分,全对得分)

21. BP算法优点正确的是?

A 自适应学习 ✅
B 强非线性映射 ✅
C 反向传播用链式法则 ✅
D 泛化不强 ❌
答案:ABC


22. 决策树代表算法?

A CNN ❌
B C4.5 ✅
C CART ✅
D ID3 ✅
答案:BCD


23. DBSCAN正确的是?

A 簇=最大密度相连集合 ✅
B 参数:半径ε、最小点数MinPts ✅
C 适用于凸集 ✅
D 不适用于非凸 ❌(DBSCAN擅长非凸)
答案:AB


24. 随机森林、GBDT正确?

A 都可分类 ✅
B 森林分类、GBDT回归 ❌
C 森林回归、GBDT分类 ❌
D 都可回归 ✅
答案:AD


四、代码解释题(10分)

from sklearn import datasets, linear_model
from sklearn.model_selection import cross_val_score

# 加载糖尿病数据集
diabetes = datasets.load_diabetes()
X = diabetes.data[:150]
y = diabetes.target[:160]

# 构建Lasso模型
lasso = linear_model.Lasso()

# 3折交叉验证
scores = cross_val_score(lasso, X, y, cv=3)

print(scores)
print(scores.mean())

讲解

  1. 加载 sklearn 自带糖尿病数据集
  2. 取前150/160条样本
  3. 建立 Lasso 回归模型
  4. 使用 3折交叉验证 评估模型
  5. 输出每折得分与平均分
    功能:用Lasso做回归并交叉验证

五、简答题(每题10分)

26. 学习向量量化(LVQ)算法步骤

  1. 初始化原型向量(每个类别若干个)
  2. 从训练集随机选样本 x
  3. 找与 x 最近的原型向量 p
  4. 如果 x 与 p 同类:p 向 x 靠近
  5. 如果不同类:p 远离 x
  6. 重复直到收敛

27. 计算“敲声”的信息增益(西瓜数据集)

步骤(标准考场可直接背)

  1. 计算根节点信息熵 (Ent(D))
  2. 按属性划分,计算各分支熵
  3. 信息增益 (Gain = Ent(D) - \sum \frac{|D_v|}{|D|}Ent(D_v))

本题答案(按试卷给出的10条样本)

  • 好瓜:6个,坏瓜:4个
  • (Ent(D) = -(6/10)\log(6/10)-(4/10)\log(4/10) ≈ 0.971)
  • 按敲声分3组,计算加权熵
  • 最终信息增益 ≈ 0.2(考场按步骤写即可满分)

六、综合计算题(每题15分)

28. 朴素贝叶斯预测:天气=阴,温度=冷,湿度=高,风力=弱

步骤

  1. 计算先验概率 (P(郊游=是))、(P(否))
  2. 计算各条件概率
  3. 比较 (P(是|x)) 与 (P(否|x))

结论

预测结果:不去郊游(否)


29. 线性可分SVM求分离超平面 + 支持向量

已知:

  • 正例:(x_1=(1,1),x_2=(0,2)),(y=+1)
  • 负例:(x_3=(2,-1)),(y=-1)

步骤

  1. 设超平面 (w_1x_1 + w_2x_2 + b = 0)
  2. 最大间隔建立约束
  3. 解得:(w=(1,1), b=-2)

最终

分离超平面:(x_1 + x_2 - 2 = 0)
支持向量:x1、x3


全套试卷总结(期末必背)

  • 计算重点:L1范数、Precision/Recall、信息增益、SVM
  • 概念重点:决策树、集成学习、贝叶斯、Lasso/Ridge
  • 算法重点:LVQ、DBSCAN、BP、朴素贝叶斯
  • 代码重点:sklearn 交叉验证

posted @ 2026-05-31 14:53  kkman2000  阅读(12)  评论(0)    收藏  举报