机器学习复习(临时抱拂脚~~~)

1.防止过拟合:数据集扩增、交叉验证、正则化、早停、移除特征、Dropout、集成学习、剪枝
2.生成模型:朴素贝叶斯、隐马尔可夫、马尔可夫随机场
判别模型:KNN、感知机、逻辑斯蒂回归、最大熵、SVM、AddBoost、条件随机场
3.统计学习方法按基本分类:监督学习、无监督学习、强化学习、半监督学习、主动学习
4.统计学习方法三要素:模型、策略、算法
5.泛化能力指学习得出的模型对未知数据的预测能力,即所学习得到模型的期望风险。泛化误差越小,该方法就越有效。
6. 在感知机中,对于误分类的数据(xi, yi), 假设超平面S的误分类点集合为M,那么误分类点xi到超平面S的总距离是()。

7. 感知机是一种非线性模型,属于判别模型。
8. 在感知机学习算法中,激活函数是二值函数时,损失函数不可导;感知机对能准确判断样本类型的权重,提高权重比例,反之降低当前权重比例;常用激活函数是sign;感知机可以实现and函数
9. 感知器模型的关键,就是通过调整权重使一类样本可以激活神经元,而另一类则不会。
10. 感知机是两分类模型,属于监督学习。
11.KNN 算法被称为 lazy-learning 的原因:没有训练过程
12.对于随机分布的数据,kd 树搜索的平均复杂度为O(logN)
13.. K 近邻算法中,衡量两个样本的相似度方法有:欧氏距离、余弦相似度、曼哈顿距离、维度最大值
14.K 近邻算法中 K 值的选择对分类的结果影响很大。
15.K 近邻算法中分类决策的规则多为多数表决。
16.酒鬼有 90%概率外出喝酒,只有可能在 A、B、C 三个酒吧,概率相等,警察想去抓酒鬼,已知去了前两个酒吧都
没抓到他,求去第三个酒吧抓到酒鬼的概率为0.75.
17.已知在所有男生中有 5%患有色盲症,在所有女生中有 0.25%患有色盲症。随机抽取一人发现患有色盲症,问其为
男子的概率是0.95。
18.以下关于朴素贝叶斯描述正确的是:需要知道先验概率、能处理多分类任务。
19.朴素贝叶斯属于生成式模型。
20.朴素贝叶斯是基于很强的条件独立假设。
21.决策树的优点在于便于解决多阶段问题
22.决策树适合下列哪种类型的决策:风险型决策
23.决策树的要素包括:决策结点、方案分枝、概率分枝、状态结点
24.决策树法是用于风险型决策方案的选择方法。
25.决策树算法中最能将样本数据显著分开的属性应该在决策早期就使用。
26.逻辑回归的激活函数是Sigmoid,它属于线性模型。
27.最大熵原理认为在所有可能的概率模型分布集合中,均匀分布是最好的模型。
28.关于逻辑回归(LR)的损失函数,说法正确的是: LR 的损失函数为交叉熵损失函数; LR 的损失函数为对数似然损失函数; LR 的损失函数一般不采用均方误差
29.逻辑回归可以用于预测事件发生概率的大小。
30.最大熵模型在一定情况下可以转化成逻辑回归模型。
31.支持向量机叙述正确的有:支持向量机可以实现多分类;支持向量机可以采用合页损失函数;支持向量机对噪音样本鲁棒
32.支持向量(Support vectors)指的是决定分类面可以平移的范围的数据点。
33.以下哪项是支持向量机在现实世界中的实际应用?文本和超文本分类 ;图像分类;新闻文章类型识别。
34.支持向量是最接近决策边界的数据点。
35. 训练完 SVM 模型后, 不是支持向量的那些样本我们可以丢掉, 也可以继续分类。
36.bootstrap 数据是有放回地从总共 N 个样本中抽样 n 个样本
37.下列关于“集成学习”说法正确的是:个体学习器间相关性较低。
38.可以度量个体学习器的多样化程度的数据量是:不合度量;相关系数;Q-统计量
39.集成学习对个体学习器的权重分配一般满足权重和为 1。
40. 输出表示扰动可以增强集成学习中个体学习器的多样性。
41.假如你使用 EM 算法对一个有潜变量的模型进行最大似然估计(Maximum likelihood estimate)。这时候要求你将算法进行修改,使得其能找到最大后验分布(Maximum a Posteriori estimation ,MAP),你需要修改算法中的步骤Expection。
42.EM 算法是无监督。
43.EM 算法的每次迭代由哪些步骤组成:求期望、求极大
44.EM 算法还可以解释为 F 函数的极大-极大算法。
45.EM 算法可以用于生产模型的无监督学习。
46. 在 HMM 中,如果已知观察序列和产生观察序列的状态序列,那么可用极大似然估计直接进行参数估计。
47. HMM 的无监督训练方法是EM 算法
48. 下列隐马尔科夫模型叙述正确的是:它是一种时序模型;可以做无监督学习任务;它属于贝叶斯网络中的一种
49.隐马尔可夫模型由初始状态概率向量、状态转移概率矩阵和观测概率矩阵决定。
50. 隐马尔可夫模型是一个生成模型,表示状态转移和观测序列的联合分布,且这个状态序列是不可观测的。
51. 相对于 HMM 而言,CRF 模型不具备的优点是速度快
52. 条件随机场(CRF)经常用来做新词识别、词性表述、专名识别,对于 CRF 模型说法正确的是:CRF 解决了最大熵隐马模型中标记偏见(label bias)的问题
53. CRF 模型可以用来做专名识别、语义消歧等,以下关于 CRF 模型说法正确的是:CRF 模型是判别式模型 ; CRF 模型的图模型为无向图
54.CRF 是全局最优的判别式模型。
55. CRF 是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布。
56. 一共 5 个点 A(0,0),B(1,0.3),C(3,0.5),D(2,1),E(1.8,1.5),采用 Kmeans 方法,如果选取 A,D 为种子点,B,C,E 分别属于(A,D,D)种子点。
57. 两个种子点 A(-1,0),B(-1,6),其余点为(0,0),(2,0),(0,6),(2,6),利用 kmeans 算法,点群中
心按坐标平均计算。最终同类点到种子点 A 和同类点到种子点 B 的距离和分别为(2,2)。
58. 图像中应用的 Kmeans 算法,以下说法错误的是(BD)。
A. kmeans 算法有效的前提假设是数据满足高斯分布
B. kmeans 不需要手工指定类别的数目
C. 对于多维实数数据,kmeans 算法最终一定是收敛的
D. kmeans 算法可以直接得到类别分布的层级关系
59. Kmeans 是无监督算法。
60. 任意选取初始中心,kmeans 总能收敛。
61. 在二维空间中,向量 A = (x1, y1)在单位向量 B = (x2, y2)方向上的投影为(x1y2 + x1y2 )。
62. PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维。
63. 两个变量的协方差为 0,代表两个变量不相关。
64. PCA 不能够作用于任何数据矩阵。(PCA的协方差矩阵是对角矩阵)。
65. PCA 选取最优的基进行降维所依据的原则是:数据在基上的投影尽可能地分散;基向量互相正交。
66. LDA 是一种监督学习算法
67. 已知矩阵 A 经过 SVD 后的奇异值为1 > 2 ≫ 3 > 4,对应的左奇异向量为1, 2, 3, 4,右奇异向量为1, 2, 3,
4,那么 A 经过 SVD 后最优的分解为

68. SVD 分解出的矩阵是不可解释的。
69. LDA 是投影后类内方差最小为目的。
70. LDA 选取最优的直线进行分类所依据的原则有:同类数据越集中越好;不同类数据越分散越好。
71.训练时,用来学习系统参数的取值是验证集。
72.聚类中的簇与分类中的类的关系:聚类所要求划分的簇是未知的。聚类是搜索簇的无监督学习过程,与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。
73.决策树特征选择的方法:(ID3)对训练数据集(或子集)D,计算其每个特征的信息增益(C4.5计算信息增益比),并比较他们的大小,选择信息增益最大的特征。CART算法计算现有特征对训练数据集的基尼系数,并计算每一个特征A,对其可能的每个值a,计算A=a时的基尼指数,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点。
74.参数:就是模型可以根据数据可以自动学习出的变量,应该就是参数。比如,深度学习的权重,偏差等。
超参数:就是用来确定模型的一些参数,超参数不同,模型是不同的(比如说:假设都是CNN模型,如果层数不同,模型不一样,虽然都是CNN模型。),超参数一般就是根据经验确定的变量。在深度学习中,超参数有:学习速率,迭代次数,层数,每层神经元的个数等等。
75.降维的目的:用来进行特征选择和特征提取。 ①特征选择:选择重要的特征子集,删除其余特征; ②特征提取:由原始特征形成的较少的新特征。 
降维的过程:
PCA降维过程:
①将原始数据中的每一个样本都用向量表示,把所有样本组合起来构成样本矩阵,通常对样本矩阵进行中心化处理,得到中心化样本矩阵。 
②求中心化后的样本矩阵的协方差; 
③求协方差矩阵的特征值和特征向量; 
④将求出的特征值按从大到小的顺序排列,并将其对应的特征向量按照此顺序组合成一个映射矩阵,根据指定的PCA保留的特征个数取出映射矩阵的前n行或者前n列作为最终的映射矩阵; 
⑤用映射矩阵对数据进行映射,达到数据降维的目的。 
76.SVM常用核函数:
线性核函数:
线性核,主要用于线性可分的情况,我们可以看到特征空间到输入空间的维度是一样的,其参数少速度快,对于线性可分数据,其分类效果很理想,因此我们通常首先尝试用线性核函数来做分类,看看效果如何,如果不行再换别的。
多项式核函数:
多项式核函数可以实现将低维的输入空间映射到高纬的特征空间,但是多项式核函数的参数多,当多项式的阶数比较高的时候,核矩阵的元素值将趋于无穷大或者无穷小,计算复杂度会大到无法计算。
高斯(RBF)核函数:
高斯径向基函数是一种局部性强的核函数,其可以将一个样本映射到一个更高维的空间内,该核函数是应用最广的一个,无论大样本还是小样本都有比较好的性能,而且其相对于多项式核函数参数要少,因此大多数情况下在不知道用什么核函数的时候,优先使用高斯核函数。
sigmoid核函数:
采用sigmoid核函数,支持向量机实现的就是一种多层神经网络。
76.决策树剪枝分类:预剪枝、后剪枝
决策树剪枝过程:
预剪枝:在构造决策树的同时进行剪枝,为了避免过拟合,设定一个阈值,熵减小的数量小于这个阈值,即使还可以继续降低熵,也停止继续创建分支。
后剪枝:对拥有同样父节点的一组节点进行检查,判断如果将其合并,熵的增加量是否小于某一阈值。如果确实小,则这一组节点可以合并一个节点,其中包含了所有可能的结果。
77.TP、FP、TN、FN:
TP:被模型预测为正类的正样本
TN:被模型预测为负类的负样本
FP:被模型预测为正类的负样本
FN:被模型预测为负类的正样本

召回率:
精准率:
78.Boosting原理:首先从训练集用初始权重训练出一个弱学习器1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.,如此重复进行,直到弱学习器数达到事先指定的数目T,最终将这T个弱学习器通过集合策略进行整合,得到最终的强学习器。
Boosting与AdaBoost的关系:boosting 是一种将弱分类器转化为强分类器的方法统称,而adaboost是其中的一种,采用了exponential loss function(其实就是用指数的权重)

posted @ 2022-12-17 10:51  KAMITO  阅读(568)  评论(0)    收藏  举报