机器学习100道经典题库

机器学习100道经典题库 

1. 对应GradientBoosting tree算法, 以下说法正确的是: 1. 当增加最小样本分裂个数,我们可以抵制过拟合 2. 当增加最小样本分裂个数,会导致过拟合 3. 当我们减少训练单个学习器的样本个数,我们可以降低variance 4. 当我们减少训练单个学习器的样本个数,我们可以降低bias

A、2 和 4

B、2 和 3

C、1 和 3

D、1 和 4

答案:C

解析:最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”,这个参数应该用交叉验证来调节。 第二点是靠bias和variance概念的。

2. 以下哪个图是KNN算法的训练边界

A、B

B、A

C、D

D、C

E、都不是

答案:B

解析:KNN即K近邻算法,其基本思想是先选择和测试数据距离最近的K个已知类别的训练数据,然后将多数样本的类别作为测试数据的类别。KNN不需要训练模型参数,它实际上是利训练数据集对特征向量空间进行划分,并将其作为分类的“模型”,K值的选择、距离度量、分类决策规则(一般为多数表决)是KNN的三个基本要素。KNN算法的训练边界一定不是直线,另外这个算法是看周围最近的k个样本的类别从而确定分类,所以边界一定是坑坑洼洼的。

3. 如果一个训练好的模型在测试集上有100%的准确率, 这是不是意味着在一个新的数据集上,也会有同样好的表现?

A、是的,这说明这个模型的范化能力已经足以支持新的数据集合了

B、不对,依然后其他因素模型没有考虑到,比如噪音数据

答案:B

解析:没有一个模型是可以总是适应新数据的。我们不可能可到100%准确率。

4. 下面的交叉验证方法 i. 有放回的Bootstrap方法 ii. 留一个测试样本的交叉验证 iii. 5折交叉验证 iv. 重复两次的5折教程验证 当样本是1000时,下面执行时间的顺序,正确的是

A、i > ii > iii > iv

B、ii > iv > iii > i

C、iv > i > ii > iii

D、ii > iii > iv > i

答案:B

解析:Boostrap方法是传统地随机抽样,验证一次的验证方法,只需要训练1次模型,所以时间最少。 留一个测试样本的交叉验证,需要n次训练过程(n是样本个数),这里,要训练1000个模型。 5折交叉验证需要训练5个模型。 重复2次的5折交叉验证,需要训练10个模型。 所有B是正确的

5. 变量选择是用来选择最好的判别器子集, 如果要考虑模型效率,我们应该做哪些变量选择的考虑? 1. 多个变量其实有相同的用处 2. 变量对于模型的解释有多大作用 3. 特征携带的信息 4. 交叉验证

A、1 和 4

B、1, 2 和 3

C、1,3 和 4

D、以上所有

答案:C

解析:注意, 这题的题眼是考虑模型效率,所以不要考虑选项2.

6. 对于线性回归模型,增加一个特征变量,以下可能正确的是 : 1. R-Squared 和 Adjusted R-squared都是递增的 2. R-Squared 是常量的,Adjusted R-squared是递增的 3. R-Squared 是递减的, Adjusted R-squared 也是递减的 4. R-Squared 是递减的, Adjusted R-squared是递增的

A、1 和 2

B、1 和 3

C、2 和 4

D、以上都不是

答案:A

解析:答案: A 线性回归问题中,R-Squared 用来衡量回归方程与真实样本输出之间的相似程度,其表达式为:

上式中,分子部分表示真实值与预测值的平方差之和,类似于均方差 MSE;分母部分表示真实值与均值的平方差之和,类似于方差 Var。一般来说,R-Squared 越大,表示模型拟合效果越好。单独看 R-Squared,并不能推断出增加的特征是否有意义。通常来说,增加一个特征特征,R-Squared 可能变大也可能保持不变,两者不一定呈正相关。 Adjusted R-Squared的表达式为:

其中,n 是样本数量,p 是特征数量。Adjusted R-Squared 抵消样本数量对 R-Squared 的影响,做到了真正的 0~1,越大越好。增加一个特征变量,如果这个特征有意义,Adjusted R-Square 就会增大,若这个特征是冗余特征,Adjusted R-Squared 就会减小。 分析选项,增加一个特征,R-Squared 不变或者递增,故3和4都错;如果增加的特征是有意义的,Adjusted R-Square 就会增大,故1和2可能正确。本题问的是可能正确的选项,故答案选A。

7. 对于下面三个模型的训练情况, 下面说法正确的是:

1. 第一张图的训练错误与其余两张图相比,是最大的 2. 最后一张图的训练效果最好,因为训练错误最小 3. 第二张图比第一和第三张图鲁棒性更强,是三个里面表现最好的模型 4. 第三张图相对前两张图过拟合了 5. 三个图表现一样,因为我们还没有测试数据集

A、1 和 3

B、2 和 3

C、1, 3 和 4

D、5

答案:C

解析:第一张图训练的模型对数据的拟合效果太差,训练误差最大,属于欠拟合,1对;第二张图训练的模型对数据的拟合效果较好,鲁棒性最强,模型表现最好,3对;第三张图训练的模型对数据的拟合效果最好,训练误差最小,但是属于过拟合,在测试集上的误差会很大,这样的模型不好,4对,2错。综上,答案选C。

8. 对于线性回归,下面哪些说法是正确的? 1. 找到离群点很重要, 因为线性回归对离群点很敏感 2. 线性回归要求所有变量必须符合正态分布 3. 线性回归假设数据没有多重线性相关性

A、1 和 2

B、2 和 3

C、1,2 和 3

D、以上都不是

答案:D

解析:第1个假设, 离群点要着重考虑, 第一点是对的 第2个假设, 正态分布不是必须的. 当然, 如果是正态分布, 训练效果会更好 第3个假设, 有少量的多重线性相关性也是可以的, 但是我们要尽量避免

9. 当我们构造线性模型时, 我们注意变量间的相关性. 在相关矩阵中搜索相关系数时, 如果我们发现3对变量的相关系数是(Var1 和Var2, Var2和Var3, Var3和Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论: 1. Var1和Var2是非常相关的 2. 因为Var1和Var2是非常相关的, 我们可以去除其中一个 3. Var3和Var1的1.23相关系数是不可能的

A、1 and 3

B、1 and 2

C、1,2 and 3

D、1

答案:C

解析:相关性系数范围应该是 [-1,1] 一般地, 如果相关系数大于0.7或者小于-0.7, 是高相关的. Var1和Var2相关系数是接近负1, 所以这是多重线性相关, 我们可以考虑去除其中一个. 所以1, 2, 3个结论都是对的, 选C.

10. 如果在一个高度非线性并且复杂的一些变量中, 一个树模型可能比一般的回归模型效果更好. 这是()

A、对的

B、错的

答案:A

11. 下面对集成学习模型中的弱学习者描述错误的是?

A、他们经常不会过拟合

B、他们通常带有高偏差,所以其并不能解决复杂学习问题

C、他们通常会过拟合

答案:C

解析:弱学习者是问题的特定部分。所以他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。

12. 下面哪个/些选项对 K 折交叉验证的描述是正确的? 1.增大 K 将导致交叉验证结果时需要更多的时间 2.更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心 3.如果 K=N,那么其称为留一交叉验证,其中 N 为验证集中的样本数量

A、1 和 2

B、2 和 3

C、1 和 3

D、1、2 和 3

答案:D

解析:大 K 值意味着对过高估计真实预期误差(训练的折数将更接近于整个验证集样本数)拥有更小的偏差和更多的运行时间(并随着越来越接近极限情况:留一交叉验证)。我们同样在选择 K 值时需要考虑 K 折准确度和方差间的均衡。

13. 最出名的降维算法是 PCA 和 t-SNE。将这两个算法分别应用到数据「X」上,并得到数据集「X_projected_PCA」,「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的?

A、X_projected_PCA 在最近邻空间能得到解释

B、X_projected_tSNE 在最近邻空间能得到解释

C、两个都在最近邻空间能得到解释

D、两个都不能在最近邻空间得到解释

答案:B

解析:t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后,所降的维可以在最近邻空间得到解释。但 PCA 不能。

14. 给定三个变量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2(即 X+2),Y 的全部值减 2(即 Y-2),Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么?

A、D1= C1, D2 < C2, D3 > C3

B、D1 = C1, D2 > C2, D3 > C3

C、D1 = C1, D2 > C2, D3 < C3

D、D1 = C1, D2 < C2, D3 < C3

E、D1 = C1, D2 = C2, D3 = C3

答案:E

解析:特征之间的相关性系数不会因为特征加或减去一个数而改变。

15. 为了得到和 SVD 一样的投射(projection),你需要在 PCA 中怎样做?

A、将数据转换成零均值

B、将数据转换成零中位数

C、无法做到

答案:A

解析:当数据有一个 0 均值向量时,PCA 有与 SVD 一样的投射,否则在使用 SVD 之前,你必须将数据均值归 0。

16. 假设我们有一个数据集,在一个深度为 6 的决策树的帮助下,它可以使用 100% 的精确度被训练。现在考虑一下两点,并基于这两点选择正确的选项。 注意:所有其他超参数是相同的,所有其他因子不受影响。 1.深度为 4 时将有高偏差和低方差 2.深度为 4 时将有低偏差和低方差

A、只有 1

B、只有 2

C、1 和 2

D、没有一个

答案:A

解析:偏差(bias):描述模型预测值与实际值之间的差距。 方差(variance):描述不同训练阶段模型预测值的波动情况。 随着模型复杂度的提升,对数据的拟合效果也会越来越好,最终会导致过拟合。 过拟合的情况下预测值波动较大,因为他基本要拟合所有的训练数据。所以过拟合时,模型的偏差较小,方差较大。 决策树深度由6变为4,降低了模型复杂度,模型对训练数据的拟合效果也会下降,故偏差增大,方差减小。 方差和偏差的关系是此消彼长。

17. 在以下不同的场景中,使用的分析方法不正确的有

A、根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级

B、根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

C、用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫

D、根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

答案:B

解析:预测消费更合适的算法是用回归模型来做。而不是聚类算法。

18. 以下对经典K-means聚类算法解释正确的是

A、能自动识别类的个数,随机挑选初始点为中心点计算

B、能自动识别类的个数,不是随机挑选初始点为中心点计算

C、不能自动识别类的个数,随机挑选初始点为中心点计算

D、不能自动识别类的个数,不是随机挑选初始点为中心点计算

答案:C

解析:(1)适当选择c个类的初始中心; (2)在第k次迭代中,对任意一个样本,求其到c个中心的距离,将该样本归到距离最短的中心所在的类; (3)利用均值等方法更新该类的中心值; (4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。 以上是KMeans(C均值)算法的具体步骤,可以看出需要选择类别数量,但初次选择是随机的,最终的聚类中心是不断迭代稳定以后的聚类中心。所以答案选C。

19. (假设precision=TP/(TP+FP),recall=TP/(TP+FN)。)在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()

A、Accuracy:(TP+TN)/all

B、F-value:2*recall*precision/(recall+precision)

C、G-mean:sqrt(precision*recall)

D、AUC:曲线下面积

答案:A

解析:题目提到测试集正例和负例数量不均衡,那么假设正例数量很少占10%,负例数量占大部分90%。 而且算法能正确识别所有负例,但正例只有一半能正确判别。 那么TP=0.05×all,TN=0.9×all,Accuracy=95%。 虽然Accuracy很高,precision是100%,但正例recall只有50%

20. 下列选项中,识别模式与其他不一样的是

A、用户年龄分布判断:少年、青年、中年、老年

B、医生给病人诊断发病类型

C、投递员分拣信件

D、消费者类型判断:高消费、一般消费、低消费

E、出行方式判断:步行、骑车、坐车

F、商家对商品分级

答案:E

解析:ABCDF五个选项都是根据训练集样本特征学习到一个分类模型,然后对新样本进行分类;而E选项是一个预测问题,根据以往的经验(训练集样本),在面对新的情况时先进行预测,然后做出最好的决策,他没有具体的分类实体,仅仅是对未来的一种预测和最优决策,类似于量化交易,根据历史数据进行学习,预测股市未来走势,选择最优的投资策略,故不属于分类问题,答案选 E。返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

posted on 2024-04-28 22:10  shuzihua  阅读(3)  评论(0编辑  收藏  举报

导航