机器学习笔试面试真题目

【机器学习】——习题8：KNN 原创

码龄1年

关注

一. 单选题

1. 下列选择中，关于KNN算法不正确的是？ D

A. 能找出与待测样本相近的k个样本

B. 距离度量是影响KNN算法的主要因素之⼀

C. 实现过程相对简单，但是可解释性不强

D. KNN的样本搜索中线性扫描效率很⾼

2. 影响KNN算法效果的主要因素不包括? A

A. 最近数据的距离

B. 距离度量⽅式

C. 决策规则

D. K的值

二. 填空题

3. 最近邻学习没有显式的训练过程，在训练阶段仅仅是把样本保存起来。训练时间开销为零，待收到测试样本后在进行处理，被称为“（）”（即懒惰学习）。

正确答案：消极；消极学习

4. ⼆维空间中两个点A(0,5)，B(4,8)，则A点和B点的欧式距离为(),曼哈顿距离为()

正确答案：

(1) 5

(2) 7

5.三维空间中两个点A(0,5,1),B(4,8,7),则A点和B点之间的曼哈顿距离为()

正确答案：13

三. 判断题

6. k 近邻学习是一种常用的监督学习方法，其工作机制为：给定测试样本，基于某种距离度量找出训练集中与其最靠近的 k 个训练样本，然后基于这 k 个邻居信息进行预测。因此 k 近邻算法的核心是 k 值和距离度量的选取。

A. 对

B. 错

正确答案: 对

文章知识点与官方知识档案匹配

问答

下载

社区

推荐频道

活动

招聘

专题

打开CSDN APP

打开APP

W星星S

关注

【机器学习】——习题9：K-means 原创

2023-12-02 20:48:45

阅读量

500

DALL-E

W星星S

码龄1年

关注

一. 单选题

1. 对于以下哪项任务，K-means聚类可能是一种合适的算法（A）

A. 给定一个关于用户信息的数据库，自动将用户分组到不同的市场细分中

B. 根据历史天气记录，预测明天的降雨量

C. 给定超市中大量产品的销售数据，估计这些产品的未来销售额。

D. 基于许多电子邮件，确定它们是垃圾邮件还是非垃圾邮件。

2. 下列关于K值说法不正确的是（C）

A. K-Means算法的主要缺点之一为K值很难确定

B. K值决定了初始质心的数量

C. K 值需要人为设定，不同 K 值得到的结果一样

D. 常见的选取 K 值的方法有：手肘法、轮廓系数法

3. K-means算法和KNN算法相比较，下列说法正确的是（D）

A. KNN和K-means都属于监督学习

B. KNN和K-means都需要带标签的数据集

C. KNN和K-means都是聚类算法

D. KNN和K-means都需要使用到距离度量

二. 填空题

4. 聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“（）”。

正确答案：簇

三. 判断题

5.判断聚类和分类的区别在于用于聚类的训练样本的类标记是未知的。

A. 对

B. 错

正确答案: 对

6. 聚类生成的组称为簇，簇内任意对象之间具有较高的相似度，而簇间任意对象之间具有较高的相异度。

A. 对

B. 错

正确答案: 对

7. 直观上看，我们希望“物以类聚”，即聚类的结果“簇内相似度”高，且“簇间”相似度也高。

A. 对

B. 错

正确答案: 错

文章知识点与官方知识档案匹

活动

招聘

专题

打开CSDN APP

打开APP

W星星S

关注

【机器学习】——习题10：决策树原创

2023-12-02 20:45:12

阅读量

607

AI视频模型

W星星S

码龄1年

关注

一. 单选题

1. 下列关于决策树的说法不正确的是？ D

A. ID3决策树是根据信息增益来划分属性

B. C4.5决策树是根据增益率来划分属性

C. CART决策树是根据基尼指数来划分属性

D. 基尼指数越⼩，数据的纯度越低

2. 下⾯关于ID3算法中，错误的是？ D

A. ID3算法要求特征必须离散化

B. 信息增益可以⽤熵来计算

C. 选取信息增益最⼤的特征，作为树的根节点

D. ID3算法是⼀个⼆叉树模型

3. 下列有关CART算法和C4.5算法说法错误的是？ B

A. C4.5⽣成的是多叉树，CART算法⽣成的是⼆叉树

B. C4.5算法和CART算法既可以做分类也可以做回归

C. C4.5使⽤了熵模型，⾥⾯有⼤量耗时的对数运算，⽽CART算法作为分类树时改⽤基尼系数进⾏度量

D. CART算法在做回归任务时根据样本的离散程度来评价不纯度

4. 下列说法错误的是？ B

A. 从树的根节点开始，根据特征的值⼀步⼀步⾛到叶⼦结点的过程是决策树做决策的过程

B. 决策树只能是⼀颗⼆叉树

C. 根节点代表的特征是最优特征

D. 决策树算法的主要⽬的是要选取⼀个特征能够分开的数据集尽量的在同⼀类别

5.下列有关决策树的描述不正确的是？ B

A. 决策树的⽣成算法有ID3,CART和C4.5,其中C4.5是以信息增益率作为特征划分的标准的

B. 基尼指数越⼤，样本的不确定性越⼩，即特征纯度越⾼

C. CART算法既可以⽤于分类也可以⽤于回归

D. ID3算法对决策树进⾏剪枝以预防出现过拟合现象

文章知

识点与官方知识档案匹配

算法技能树首页概览

机器学习笔试面试题目二

abc_138

47649人浏览 · 2018-09-26 16:48:55

1、使用k=1的knn算法, 下图二类分类问题, “+” 和 “o” 分别代表两个类, 那么, 用仅拿出一个测试样本的交叉验证方法, 交叉验证的错误率是多少：

A 0%

B 100%

C 0%到100

D 以上都不是

正确答案是： B

解析：

knn算法就是, 在样本周围看k个样本, 其中大多数样本的分类是A类, 我们就把这个样本分成A类. 显然, k=1 的knn在上图不是一个好选择, 分类的错误率始终是100%。

2、我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以

A 增加树的深度

B 增加学习率 (learning rate)

C 减少树的深度

D 减少树的数量

正确答案是：C

解析：

增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间.

决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法)

决策树只有一棵树, 不是随机森林。

3、假如我们使用非线性可分的SVM目标函数作为最优化对象, 我们怎么保证模型线性可分？

A 设C=1

B 设C=0

C 设C=无穷大

D 以上都不

正确答案是：C

解析：

C无穷大保证了所有的线性不可分都是可以忍受的.

4、以下哪些算法, 可以用神经网络去构造:

1. KNN

2. 线性回归

3. 对数几率回归

A 1和 2

B 2 和 3

C 1, 2 和 3

D 以上都不是

正确答案是： B

解析：

1. KNN算法不需要训练参数, 而所有神经网络都需要训练参数, 因此神经网络帮不上忙

2. 最简单的神经网络, 感知器, 其实就是线性回归的训练

3. 我们可以用一层的神经网络构造对数几率回归

5、请选择下面可以应用隐马尔科夫(HMM)模型的选项

A 基因序列数据集

B 电影浏览数据集

C 股票市场数据集

D 所有以上

正确答案是：D

解析：

只要是和时间序列问题有关的 , 都可以试试HMM

6、我们建立一个5000个特征, 100万数据的机器学习模型. 我们怎么有效地应对这样的大数据训练 :

A我们随机抽取一些样本, 在这些少量样本之上训练

B我们可以试用在线机器学习算法

C我们应用PCA算法降维, 减少特征数

D B 和 C

E A 和 B

F 以上所有

正确答案是：F

解析：

样本数过多, 或者特征数过多, 而不能单机完成训练, 可以用小批量样本训练, 或者在线累计式训练, 或者主成分PCA降维方式减少特征数量再进行训练.

7、我们想要减少数据集中的特征数, 即降维. 选择以下适合的方案 :

1. 使用前向特征选择方法

2. 使用后向特征排除方法

3. 我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征.

4. 查看相关性表, 去除相关性最高的一些特征

A 1 和 2

B 2, 3和4

C 1, 2和4

D All

正确答案是：D

解析：

1.前向特征选择方法和后向特征排除方法是我们特征选择的常用方法

2.如果前向特征选择方法和后向特征排除方法在大数据上不适用, 可以用这里第三种方法.

3.用相关性的度量去删除多余特征, 也是一个好方法

8、对于随机森林和GradientBoosting Trees, 下面说法正确的是:

1 在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的

2 这两个模型都使用随机特征子集, 来生成许多单个的树

3 我们可以并行地生成GradientBoosting Trees单个树, 因为它们之间是没有依赖的

4 GradientBoosting Trees训练模型的表现总是比随机森林好

A 2

B 1 and 2

C 1, 3 and 4

D 2 and 4

正确答案是：A

更多详情请参见《通俗理解kaggle比赛大杀器xgboost》：https://blog.csdn.net/v_JULY_v/article/details/81410574，循序渐进，先后理解：决策树、CBDT、xgboost。

解析：

1 随机森林是基于bagging的, 在随机森林的单个树中, 树和树之间是没有依赖的。

2 Gradient Boosting trees是基于boosting的，且GradientBoosting Trees中的单个树之间是有依赖关系。

3 这两个模型都使用随机特征子集, 来生成许多单个的树。

9、对于PCA(主成分分析)转化过的特征 , 朴素贝叶斯的”不依赖假设”总是成立, 因为所有主要成分是正交的, 这个说法是 :

A 正确的

B 错误的

正确答案是： B

解析：

这个说法是错误的, 首先, “不依赖”和”不相关”是两回事, 其次, 转化过的特征, 也可能是相关的

10、对于PCA说法正确的是 :

1. 我们必须在使用PCA前规范化数据

2. 我们应该选择使得模型有最大variance的主成分

3. 我们应该选择使得模型有最小variance的主成分

4. 我们可以使用PCA在低维度上做数据可视化

A 1, 2 and 4

B 2 and 4

C 3 and 4

D 1 and 3

E 1, 3 and 4

正确答案是：A

解析：

1）PCA对数据尺度很敏感, 打个比方, 如果单位是从km变为cm, 这样的数据尺度对PCA最后的结果可能很有影响(从不怎么重要的成分变为很重要的成分).

2）我们总是应该选择使得模型有最大variance的主成分

3）有时在低维度上左图是需要PCA的降维帮助的

1、对于下图, 最好的主成分选择是多少 ?

A 7

B 30

C 35

D Can’t Say

正确答案是： B

解析：

主成分选择使variance越大越好，在这个前提下，主成分越少越好。

2、数据科学家可能会同时使用多个算法（模型）进行预测，并且最后把这些算法的结果集成起来进行最后的预测（集成学习），以下对集成学习说法正确的是

A 单个模型之间有高相关性

B 单个模型之间有低相关性

C 在集成学习中使用“平均权重”而不是“投票”会比较好

D 单个模型都是用的一个算法

正确答案是： B

3、在有监督学习中，我们如何使用聚类方法？

1. 我们可以先创建聚类类别，然后在每个类别上用监督学习分别进行学习

2. 我们可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习

3. 在进行监督学习之前，我们不能新建聚类类别

4. 我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习

A 2 和 4

B 1 和 2

C3 和 4

D 1 和3

正确答案是： B

解析：

我们可以为每个聚类构建不同的模型，提高预测准确率。

“类别id”作为一个特征项去训练，可以有效地总结了数据特征。

4、以下说法正确的是

1. 一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的

2. 如果增加模型复杂度，那么模型的测试错误率总是会降低

3. 如果增加模型复杂度，那么模型的训练错误率总是会降低

4. 我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习

A 1

B 2

C 3

D 2和3

E 都错

正确答案是：E

解析：

1的模型中, 如果负样本占比非常大,也会有很高的准确率, 对正样本的分类不一定很好;

4的模型中, “类别id”可以作为一个特征项去训练, 这样会有效地总结了数据特征。

5、对应GradientBoosting tree算法，以下说法正确的是:

1. 当增加最小样本分裂个数，我们可以抵制过拟合

2. 当增加最小样本分裂个数，会导致过拟合

3. 当我们减少训练单个学习器的样本个数，我们可以降低variance

4. 当我们减少训练单个学习器的样本个数，我们可以降低bias

A 2 和 4

B 2 和 3

C 1 和 3

D 1 和 4

正确答案是：C

解析：

最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”，这个参数应该用交叉验证来调节。

第二点是考bias和variance概念的。

6、以下哪个图是KNN算法的训练边界

A B

B A

C D

D C

E 都不是

正确答案是： B

解析：

KNN算法肯定不是线性的边界，所以直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以确定分类，所以边界一定是坑坑洼洼的

7、如果一个训练好的模型在测试集上有100%的准确率，这是不是意味着在一个新的数据集上，也会有同样好的表现？

A 是的，这说明这个模型的范化能力已经足以支持新的数据集合了

B 不对，依然后其他因素模型没有考虑到，比如噪音数据

正确答案是： B

8、下面的交叉验证方法

i. 有放回的Bootstrap方法

ii. 留一个测试样本的交叉验证

iii. 5折交叉验证

iv. 重复两次的5折教程验证

当样本是1000时，下面执行时间的顺序，正确的是

A i > ii > iii > iv

B ii > iv > iii > i

C iv > i > ii > iii

D ii > iii > iv > i

正确答案是： B

解析：

Boostrap方法是传统地随机抽样，验证一次的验证方法，只需要训练1次模型，所以时间最少。

留一个测试样本的交叉验证，需要n次训练过程（n是样本个数），这里，要训练1000个模型。

5折交叉验证需要训练5个模型。

重复2次的5折交叉验证，需要训练10个模型

9、变量选择是用来选择最好的判别器子集，如果要考虑模型效率，我们应该做哪些变量选择的考虑？

1. 多个变量其实有相同的用处

2. 变量对于模型的解释有多大作用

3. 特征携带的信息

4. 交叉验证

A 1 和 4

B 1, 2 和 3

C 1,3 和 4

D 以上所有

正确答案是：C

解析：

注意，这题的题眼是考虑模型效率，所以不要考虑选项2.

10、对于线性回归模型，包括附加变量在内，以下的可能正确的是 :

1. R-Squared 和 Adjusted R-squared都是递增的

2. R-Squared 是常量的，Adjusted R-squared是递增的

3. R-Squared 是递减的， Adjusted R-squared 也是递减的

4. R-Squared 是递减的， Adjusted R-squared是递增的

A 1 和 2

B 1 和 3

C 2 和 4

D 以上都不是

正确答案是：D

解析：

R-squared不能决定系数估计和预测偏差，这就是为什么我们要估计残差图。但是，R-squared有R-squared 和 predicted R-squared 所没有的问题。

每次你为模型加入预测器，R-squared递增或不变.

1、对于下面三个模型的训练情况，下面说法正确的是:

1. 第一张图的训练错误与其余两张图相比，是最大的

2. 最后一张图的训练效果最好，因为训练错误最小

3. 第二张图比第一和第三张图鲁棒性更强，是三个里面表现最好的模型

4. 第三张图相对前两张图过拟合了

5. 三个图表现一样，因为我们还没有测试数据集

A 1 和 3

B 1 和 3

C 1, 3 和 4

D 5

正确答案是：C，

解析：

最后一张过拟合, 训练错误最小, 第一张相反, 训练错误就是最大了. 所以1是对的;

仅仅训练错误最小往往说明过拟合, 所以2错, 4对;

第二张图平衡了拟合和过拟合, 所以3对;

2、对于线性回归，我们应该有以下哪些假设？

1. 找到离群点很重要, 因为线性回归对离群点很敏感

2. 线性回归要求所有变量必须符合正态分布

3. 线性回归假设数据没有多重线性相关性

A 1 和 2

B 2 和 3

C 1,2 和 3

D 以上都不是

正确答案是：D

解析：

第1个假设, 离群点要着重考虑, 第一点是对的

第2个假设, 正态分布不是必须的. 当然, 如果是正态分布, 训练效果会更好

第3个假设, 有少量的多重线性相关性也是可以的, 但是我们要尽量避免

3、当我们构造线性模型时, 我们注意变量间的相关性. 在相关矩阵中搜索相关系数时, 如果我们发现3对变量的相关系数是(Var1 和Var2, Var2和Var3, Var3和Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论:

1. Var1和Var2是非常相关的

2. 因为Var1和Var2是非常相关的, 我们可以去除其中一个

3. Var3和Var1的1.23相关系数是不可能的

A 1 and 3

B 1 and 2

C 1,2 and 3

D 1

正确答案是：C

解析：

相关性系数范围应该是 [-1,1]

一般地, 如果相关系数大于0.7或者小于-0.7, 是高相关的.

Var1和Var2相关系数是接近负1, 所以这是多重线性相关, 我们可以考虑去除其中一个.

所以1, 2, 3个结论都是对的, 选C.

4、如果在一个高度非线性并且复杂的一些变量中, 一个树模型可能比一般的回归模型效果更好. 这是（）

A 对的

B 错的

正确答案是：A

5、下面对集成学习模型中的弱学习者描述错误的是？

A 他们经常不会过拟合

B 他们通常带有高偏差，所以其并不能解决复杂学习问题

C 他们通常会过拟合

正确答案是：C

解析：

答案：C，弱学习者是问题的特定部分。所以他们通常不会过拟合，这也就意味着弱学习者通常拥有低方差和高偏差。

6、下面哪个/些选项对 K 折交叉验证的描述是正确的？

1.增大 K 将导致交叉验证结果时需要更多的时间

2.更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心

3.如果 K=N，那么其称为留一交叉验证，其中 N 为验证集中的样本数量

A 1 和 2

B 2 和 3

C 1 和 3

D 1、2 和 3

正确答案是：D

解析：

答案（D)：大 K 值意味着对过高估计真实预期误差（训练的折数将更接近于整个验证集样本数）拥有更小的偏差和更多的运行时间（并随着越来越接近极限情况：留一交叉验证）。我们同样在选择 K 值时需要考虑 K 折准确度和方差间的均衡。

7、最出名的降维算法是 PCA 和 t-SNE。将这两个算法分别应用到数据「X」上，并得到数据集「X_projected_PCA」，「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的？

A X_projected_PCA 在最近邻空间能得到解释

B X_projected_tSNE 在最近邻空间能得到解释

C 两个都在最近邻空间能得到解释

D 两个都不能在最近邻空间得到解释

正确答案是： B

解析：

答案（B）：t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后，所降的维可以在最近邻空间得到解释。但 PCA 不能。

8、给定三个变量 X，Y，Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2（即 X+2），Y 的全部值减 2（即 Y-2），Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么？

A D1= C1, D2 < C2, D3 > C3

B D1 = C1, D2 > C2, D3 > C3

C D1 = C1, D2 > C2, D3 < C3

D D1 = C1, D2 < C2, D3 < C3

E D1 = C1, D2 = C2, D3 = C3

正确答案是：E

解析：

答案（E）：特征之间的相关性系数不会因为特征加或减去一个数而改变。

9、为了得到和 SVD 一样的投射（projection），你需要在 PCA 中怎样做？

A 将数据转换成零均值

B 将数据转换成零中位数

C 无法做到

正确答案是：A

解析：

答案（A）：当数据有一个 0 均值向量时，PCA 有与 SVD 一样的投射，否则在使用 SVD 之前，你必须将数据均值归 0。

10、假设我们有一个数据集，在一个深度为 6 的决策树的帮助下，它可以使用 100% 的精确度被训练。现在考虑一下两点，并基于这两点选择正确的选项。

注意：所有其他超参数是相同的，所有其他因子不受影响。

1.深度为 4 时将有高偏差和低方差

2.深度为 4 时将有低偏差和低方差

A 只有 1

B 只有 2

C 1 和 2

D 没有一个

正确答案是：A

解析：

答案（A)：如果在这样的数据中你拟合深度为 4 的决策树，这意味着其更有可能与数据欠拟合。因此，在欠拟合的情况下，你将获得高偏差和低方差。

1、在以下不同的场景中,使用的分析方法不正确的有

A 根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级

B 根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

C 用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫

D 根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

正确答案是： B

解析：

预测消费更合适的算法是用回归模型来做。而不是聚类算法

2、以下对k-means聚类算法解释正确的是

A 能自动识别类的个数,随即挑选初始点为中心点计算

B 能自动识别类的个数,不是随即挑选初始点为中心点计算

C 不能自动识别类的个数,随即挑选初始点为中心点计算

D 不能自动识别类的个数,不是随即挑选初始点为中心点计算

正确答案是：C

解析：

（1）适当选择c个类的初始中心；

（2）在第k次迭代中，对任意一个样本，求其到c个中心的距离，将该样本归到距离最短的中心所在的类；

（3）利用均值等方法更新该类的中心值；

（4）对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。

以上是KMeans（C均值）算法的具体步骤，可以看出需要选择类别数量，但初次选择是随机的，最终的聚类中心是不断迭代稳定以后的聚类中心。

3、（假设precision=TP/(TP+FP),recall=TP/(TP+FN)。）在二分类问题中，当测试集的正例和负例数量不均衡时，以下评价方案哪个是相对不合理的（）

A Accuracy:(TP+TN)/all

B F-value:2*recall*precision/(recall+precision)

C G-mean:sqrt(precision*recall)

D AUC:曲线下面积

正确答案是：A

解析：

题目提到测试集正例和负例数量不均衡，那么假设正例数量很少占10%，负例数量占大部分90%。

而且算法能正确识别所有负例，但正例只有一半能正确判别。

那么TP=0.05×all,TN=0.9×all，Accuracy=95%。

虽然Accuracy很高，precision是100%,但正例recall只有50%

4、下列选项中,识别模式与其他不⼀样的是

A ⽤户年龄分布判断:少年、青年、中年、⽼年

B 医⽣给病⼈诊断发病类型

C 投递员分拣信件

D 消费者类型判断:⾼消费、⼀般消息、低消费

E 出⾏方式判断:步⾏、骑车、坐车

F 商家对商品分级

正确答案是：E

解析：

E属于预测问题，其他的选项属于分类问题

5、在大规模的语料中，挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。

A 互信息

B 最大熵

C 卡方检验

D 最大似然比

正确答案是： B

解析：

最大熵代表了整体分布的信息，通常具有最大熵的分布作为该随机变量的分布，不能体现两个词的相关性，但是卡方是检验两类事务发生的相关性。

6、基于统计的分词方法为（）

A 正向最大匹配法

B 逆向最大匹配法

C 最少切分

D 条件随机场

正确答案是：D

解析：

第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度远远还不能令人满意,目前这种分词系统还处在试验阶段。

第二类是机械式分词法（即基于词典）。机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分。基于词典的机械分词法,实现简单,实用性强,但机械分词法的最大的缺点就是词典的完备性不能得到保证。据统计,用一个含有70000个词的词典去切分含有15000个词的语料库,仍然有30%以上的词条没有被分出来,也就是说有4500个词没有在词典中登录。

第三类是基于统计的方法。基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。

7、在下面的图像中，哪一个是多元共线（multi-collinear）特征？

A 图 1 中的特征

B 图 2 中的特征

C 图 3 中的特征

D 图 1、2 中的特征

E 图 2、3 中的特征

F 图 1、3 中的特征

正确答案是：D

解析：

答案为（D）：在图 1 中，特征之间有高度正相关，图 2 中特征有高度负相关。所以这两个图的特征是多元共线特征。

8、线性回归的基本假设不包括哪个？

A 随机误差项是一个期望值为0的随机变量

B 对于解释变量的所有观测值，随机误差项有相同的方差

C 随机误差项彼此相关

D 解释变量是确定性变量不是随机变量，与随机误差项之间相互独立

E 随机误差项服从正态分布

正确答案是：C

9、下面哪些对「类型 1（Type-1）」和「类型 2（Type-2）」错误的描述是错误的？

A 类型 1 通常称之为假正类，类型 2 通常称之为假负类

B类型 2 通常称之为假正类，类型 1 通常称之为假负类

C 类型 1 错误通常在其是正确的情况下拒绝假设而出现

正确答案是： B

解析：

在统计学假设测试中，I 类错误即错误地拒绝了正确的假设即假正类错误，II 类错误通常指错误地接受了错误的假设即假负类错误。

10、给线性回归模型添加一个不重要的特征可能会造成？

A 增加 R-square

B 减少 R-square

正确答案是：A

解析：

答案为（A）：在给特征空间添加了一个特征后，不论特征是重要还是不重要，R-square 通常会增加。

R-square定义如下:

1、关于 ARMA 、 AR 、 MA 模型的功率谱，下列说法正确的是（）

A MA模型是同一个全通滤波器产生的

B MA模型在极点接近单位圆时，MA谱是一个深谷

C AR模型在零点接近单位圆时，AR谱是一个尖峰

D RMA谱既有尖峰又有深谷

正确答案是：D

MA模型滑动平均模型，模型参量法谱分析方法之一，也是现代谱估中常用的模型。

用MA模型法求信号谱估计的具体作法是：①选择MA模型，在输入是冲激函数或白噪声情况下，使其输出等于所研究的信号，至少应是对该信号一个好的近似。②利用已知的自相关函数或数据求MA模型的参数。③利用求出的模型参数估计该信号的功率谱。

AR 模型(auto regressive model)自回归模型，模型参量法高分辨率谱分析方法之一，也是现代谱估计中常用的模型。

用AR模型法求信具体作法是：

①选择AR模型，在输入是冲激函数或白噪声的情况下，使其输出等于所研究的信号，至少，应是对该信号的一个好的近似。

②利用已知的自相关函数或数据求模型的参数。

③利用求出的模型参数估计该信号的功率谱。

ARMA模型(auto regressive moving average model)自回归滑动平均模型，模型参量法高分辨率谱分析方法之一。

2、符号集 a 、 b 、 c 、 d ，它们相互独立，相应概率为 1/2 、 1/4 、 1/8/ 、 1/16 ，其中包含信息量最小的符号是（）

A a

B b

C c

D d

正确答案是：A，您的选择是：D

解析：

因为消息出现的概率越小，则消息中所包含的信息量就越大。因此选a,同理d信息量最大。

3、下列哪个不属于常用的文本分类的特征选择算法？

A 卡方检验值

B 互信息

C 信息增益

D 主成分分析

正确答案是：D

解析：

主成分分析是特征转换算法（特征抽取），而不是特征选择

4、在数据清理中，下面哪个不是处理缺失值的方法?

A 估算

B 整例删除

C 变量删除

D 成对删除

正确答案是：D，您的选择是：D

解析：

数据清理中，处理缺失值的方法有两种：

一、删除法：

1）删除观察样本

2）删除变量：当某个变量缺失值较多且对研究目标影响不大时，可以将整个变量整体删除

3）使用完整原始数据分析：当数据存在较多缺失而其原始数据完整时，可以使用原始数据替代现有数据进行分析

4）改变权重：当删除缺失数据会改变数据结构时，通过对完整数据按照不同的权重进行加权，可以降低删除缺失数据带来的偏差

二、查补法：均值插补、回归插补、抽样填补等

5、统计模式分类问题中，当先验概率未知时，可以使用（）

A 最小最大损失准则

B 最小误判概率准则

C 最小损失准则

D N-P判决

正确答案是：A

解析：

A. 考虑p(wi)变化的条件下，是风险最小

B. 最小误判概率准则，就是判断p(w1|x)和p(w2|x)哪个大，x为特征向量，w1和w2为两分类，根据贝叶斯公式，需要用到先验知识

C. 最小损失准则，在B的基础之上，还要求出p(w1|x)和p(w2|x)的期望损失，因为B需要先验概率，所以C也需要先验概率

D. N-P判决，即限定一类错误率条件下使另一类错误率为最小的两类别决策，即在一类错误率固定的条件下，求另一类错误率的极小值的问题，直接计算p(x|w1)和p(x|w2)的比值，不需要用到贝叶斯公式_

6、决策树的父节点和子节点的熵的大小关系是什么？

A. 决策树的父节点更大

B 子节点的熵更大

C 两者相等

D 根据具体情况而定

正确答案是：D，您的选择是：A

解析：

正确答案：D。

假设一个父节点有2正3负样本，进一步分裂情况1：两个叶节点（2正，3负）；情况2：两个叶节点（1正1负，1正2负）。分别看下情况1和情况2，分裂前后确实都有信息增益，但是两种情况里不是每一个叶节点都比父节点的熵小。

7、语言模型的参数估计经常使用MLE（最大似然估计）。面临的一个问题是没有出现的项概率为0，这样会导致语言模型的效果不好。为了解决这个问题，需要使用（）

A 平滑

B 去噪

C 随机插值

D 增加白噪音

正确答案是：A

解析：

A，拉普拉斯平滑假设，将分子和分母各加上一个常数项。

8、逻辑回归与多元回归分析有哪些不同？

A逻辑回归预测某事件发生的概率

B逻辑回归有较高的拟合效果

C逻辑回归回归系数的评估

D以上全选

正确答案是：D

解析：

逻辑回归是用于分类问题，我们能计算出一个事件/样本的概率；一般来说，逻辑回归对测试数据有着较好的拟合效果；建立逻辑回归模型后，我们可以观察回归系数类标签(正类和负类)与独立变量的的关系。

9、"过拟合是有监督学习的挑战，而不是无监督学习"以上说法是否正确：

A 正确

B 错误

10、中文同义词替换时，常用到Word2Vec，以下说法错误的是

A Word2Vec基于概率统计

B Word2Vec结果符合当前预料环境

C Word2Vec得到的都是语义上的同义词

D Word2Vec受限于训练语料的数量和质量

正确答案是：C，您的选择是：C

解析：

Word2vec，为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。

训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。该向量为神经网络之隐藏。

Word2vec依赖skip-grams或连续词袋（CBOW）来建立神经词嵌入。

面试题：

1 overfitting怎么解决

overfitting就是过拟合, 其直观的表现如下图所示，随着训练过程的进行，模型复杂度增加，在training data上的error渐渐减小，但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集, 对训练集外的数据却不work, 这称之为泛化(generalization)性能不好。泛化性能是训练的效果评价中的首要目标，没有良好的泛化，就等于南辕北辙, 一切都是无用功。

过拟合是泛化的反面，好比乡下快活的刘姥姥进了大观园会各种不适应，但受过良好教育的林黛玉进贾府就不会大惊小怪。实际训练中, 降低过拟合的办法一般如下：

（1）正则化(Regularization)

L2正则化：目标函数中增加所有权重w参数的平方之和, 逼迫所有w尽可能趋向零但不为零. 因为过拟合的时候, 拟合函数需要顾忌每一个点, 最终形成的拟合函数波动很大, 在某些很小的区间里, 函数值的变化很剧烈, 也就是某些w非常大. 为此, L2正则化的加入就惩罚了权重变大的趋势.

L1正则化：目标函数中增加所有权重w参数的绝对值之和, 逼迫更多w为零(也就是变稀疏. L2因为其导数也趋0, 奔向零的速度不如L1给力了). 大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择。一般来说，xi的大部分元素（也就是特征）都是和最终的输出yi没有关系或者不提供任何信息的，在最小化目标函数的时候考虑xi这些额外的特征，虽然可以获得更小的训练误差，但在预测新的样本时，这些没用的特征权重反而会被考虑，从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命，它会学习地去掉这些无用的特征，也就是把这些特征对应的权重置为0。

（2）随机失活(dropout) 在训练的运行的时候，让神经元以超参数p的概率被激活(也就是1-p的概率被设置为0), 每个w因此随机参与, 使得任意w都不是不可或缺的, 效果类似于数量巨大的模型集成。

（3）逐层归一化(batch normalization) 这个方法给每层的输出都做一次归一化(网络上相当于加了一个线性变换层), 使得下一层的输入接近高斯分布. 这个方法相当于下一层的w训练时避免了其输入以偏概全, 因而泛化效果非常好.

（4）提前终止(early stopping) 理论上可能的局部极小值数量随参数的数量呈指数增长, 到达某个精确的最小值是不良泛化的一个来源. 实践表明, 追求细粒度极小值具有较高的泛化误差。这是直观的，因为我们通常会希望我们的误差函数是平滑的, 精确的最小值处所见相应误差曲面具有高度不规则性, 而我们的泛化要求减少精确度去获得平滑最小值, 所以很多训练方法都提出了提前终止策略. 典型的方法是根据交叉叉验证提前终止: 若每次训练前, 将训练数据划分为若干份, 取一份为测试集, 其他为训练集, 每次训练完立即拿此次选中的测试集自测. 因为每份都有一次机会当测试集, 所以此方法称之为交叉验证. 交叉验证的错误率最小时可以认为泛化性能最好, 这时候训练错误率虽然还在继续下降, 但也得终止继续训练了.

（5）增加训练数据，或者数据增强。

xinxi2010

机器学习笔试面试真题目

导航