机器学习复习

1.判断与名称解释题

1.1 数据挖掘：在较大数据集上通过某些方式发现模型的一个过程

1.2 机器学习：研究如何通过计算手段，利用经验提升系统的性能

1.3 假设空间：对于数据集A，其data对应的特征为一个向量，此向量所在的空间称为假设空间

1.4 奥卡姆剃刀：若有多个假设与观测一致，则选择最简单的那个

1.5 没有免费的午餐：算法的期望性能与算法本身无关

1.6 偏差方差说明了什么：偏差：学习算法与期望预测的偏离程度，学习算法本身的拟合能力

　　　　　　　　　　　方差：同样大小训练集的变动导致的学习性能的变化

　　　　　　　　　　　　偏差越小方差越大，方差越小偏差越大

1.7 误差分歧分解说明了什么：个体学习器准确性越高，多样性越大，效果就越好

1.8 机器学习的类型：多分类，二分类，回归，聚类，监督学习，半监督学习，无监督学习

1.9 统计学习：基于统计学泛函分析的机器学习架构

1.10 深度学习：深层神经网络，有多个神经元和多个隐藏层

1.11 过拟合：过于学习训练样本中的特点，导致泛化性能下降

1.12 欠拟合：对训练样本中的一般性质尚未学好

1.13 经验误差：在训练集上的误差

1.14 泛化误差：在新样本上的误差

1.15 留出法：将数据集拆分为两个互斥集合，一个作为训练集，一个作为测试集，用于估计训练误差与泛化误差

1.16 自助法：使用放回采样法，采样n次，取原数据集/采样数据集作为测试集，采样数据集作为训练集

1.17 交叉验证：将数据集划分成为多个大小相似的互斥子集，尽可能保持子集数据分布的一致性，每次将k-1个子集作为训练集，剩下一个作为测试集，进行k次训练。

1.18 查准率：P = TP / (TP + FP)

1.19 查全率：R = TP / (TP + FN)

1.20 F_1度量：2×P×R / (P+R)

1.21 ROC曲线：通过改变截断点从而得到TPR(y)和FPR(x) TPR = TP / (TP + FN),FPR = FP / (TN + FP)

1.22 AUC面积：ROC曲线所对应的面积

1.23 假设检验：利用假设检验获取两个不同学习器的性能，假设指的是对学习器泛化错误率分布的某种判断或猜想

1.24 信息熵：度量样本集合程度的指标

1.25 gini指数：数据集的纯度可用基尼值去度量，gini系数越小，数据集纯度越高选择划分后，基尼系数最小的那个特征作为划分特征

1.26 Bayes公式：

1.27 信息增益：信息增益越大，使用属性a进行的划分纯度越高

1.28 剪枝：决策树算法对于过拟合的解决方法

2.1 线性模型

2.1.1 线性模型的优化目标：学习一个线性模型以尽可能准确的预测实值输出标记

2.1.2 线性模型的求解方案：最小二乘法

2.1.3 logistic回归的基本原理：利用对数激活函数替代单位阶跃函数，解决单位阶跃函数不连续，不处处可导的问题

2.1.4 线性判别分析的基本原理：预使得同类样例的投影点尽可能接近，可以让同类投影点的协方差尽可能小

　　　　　　　　　　　　　　预使得异类样例投影点尽可能远离，可以让类中心距离尽可能大

2.1.5 ECOC多分类的基本原理：对n个类别进行m次划分，取训练m个分类器，对于一个数据使用这m个分类器，从而得到一个m长的ecoc码，对n个类也能得到n个m长的ecoc码，找距离最小的码所对应的类别作为数据的类别

2.2 决策树

2.2.1 如何根据信息增益原则划分属性生成决策树：找信息增益最大的属性划分属性生成卷册书

　　　　　　　　　　　　　　　　　　　　　　信息增益其实就是信息熵的下降程度

　　　　　　　　　　　　　　　　　　　　　　信息增益 = 信息熵 - 划分之后的信息熵按样本量加权平均

2.2.2 剪枝处理的类型和基本方法：预剪枝，后剪枝

预剪枝：在使用信息增益进行划分的时候，判断划分前后验证集精度，以验证集精度是否增加来决定是否划分

后剪枝：后剪枝从后往前遍历每个非叶节点，判断去掉此节点验证集进度是否上升，若上升则去掉此非叶节点

2.2.3 连续值和缺失值的处理：

连续值：将样本中的此属性排序取t = (ai + ai+1) / 2为阈值，一共有n-1个阈值，遍历所有的阈值，找到信息增益最大的那个作为截断点，使用截断点将连续值离散的分为两类

缺失值：划分属性时若遇到缺失值那么信息增益为无缺失值样本所占的比例 × 在无缺失值样本上的信息增益

　　　　若数据在此节点有缺失值，那么把此数据按一个概率划入所有的子节点，此概率为p(k,v)

　　　　p(k,v)为未缺失值中此特征为v且为第k类的概率

2.3 神经网络

2.3.1 多层前馈神经网络的基本组成部分：含有输入层，隐藏层，输出层，每层神经元与下一层神经元全连接，不存在同层连接或跨层连接

2.3.2 误差传播算法的原理和步骤：

原理

基于梯度下降策略，以目标负梯度方向对参数进行调整

步骤

1.在(0,1)范围内随机初始化权重和阈值

2.遍历每一个样本，计算器在每个神经元上的权重和阈值的梯度

3.利用梯度和学习率更新权重

4.重复上述操作直到达到停止条件

2.3.3 跳出局部最优的常用策略

1.取多个初值不同的神经网络进行训练，取效果最好的那个

2.使用模拟退火策略

3.使用随机梯度下降

2.4 支持向量机

2.4.1 间隔： 2/ || w||

2.4.2 支持向量：w*x + b

2.4.3 线性可分与不可分：样本可被一个超平面分开和样本不可通过一个超平面分开

2.4.4 核函数：一个非线性映射，将数据从一个线性不可分的空间映射到一个线性可分的空间

2.4.5 软间隔和硬间隔：要求所有样本都划分正确称为硬间隔，允许支持向量机在一些样本上划分错误称为硬间隔

2.4.6 支持向量机分类的优化目标与基本求解方案：

优化目标：0.5*||w||²+ C*Σloss(x_i,y_i)

基本求解方案：

1.通过拉格朗日乘子法得到对偶问题

2.利用最优化算法求解对偶问题

2.4.7 支持向量回归的基本原理：以f(x)为中心构建了一个宽度为2e的间隔带，若训练样本落入间隔带中则认为被预测准确

2.5贝叶斯分类器

2.5.1 朴素贝叶斯分类器的基本原理：假设数据中的所有特征相互独立，则根据贝叶斯公式有P(c|x) = p(c)Π p(x_i|c)

2.5.2 朴素贝叶斯的分类规则 argmaxp(c)Π p(x_i|c)

2.5.3 维数过多导致概率趋于0：使用log将连乘变为累加

2.5.3 EM算法的基本原理：

1.根据模型参数和训练样本估计缺省值，使得准确率尽可能高

2.将估计的缺省值作为缺省值，更新模型参数

3.重复上述步骤已达到精度要求

4.原理是最大化模型关于缺省值的边际似然以估计缺省值

2.6 集成学习

2.6.1 基本原则：好而不同

好：个体学习器准确率尽可能高

不同：各学习器关联性低

2.6.2 集成学习类型：

1.boosting

先训练出一个学习器，然后基于前学习器的错误训练样本对训练样本的分布进行调整，使得后续学习器更加关注之前学习器预测错误的训练样本

最终为所有学习器的加权结合

2.bagging

基于自助采样法，采样出T个含有m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些学习器进行结 ?/

其对分类任务使用简单投票法，对回归任务使用简单平均法

3.随机森林

在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入随机属性选择，在RF中，对及决策树的每一个结点，先从该结点的属性集合中随机选择一个包含k个属性的子集，然后从这个子集中学则一个最优的属性用于划分，推荐k=log₂d

2.7 聚类：

2.7.1.学习方法分类

监督学习：当有大量标记过的样本数据时采用

半监督学习：当有少量标记过的样本数据和大量未标记的样本数据时采用

主要思路：

1.利用已标记的样本，得到模型

2.利用模型估计未标记的样本

3.利用预测值重新训练模型

4.重复2,3步直到模型达到要求

无监督学习：当样本数据没有标记时采

2.7.2：K-means的基本原理

1.随机选取k个聚类中心

2.每个数据找离自己距离最短的聚类中心，进行分类

3.计算每个类别的中心点，将他们作为真正的中心点

4.重复2,3步直到均方误差收敛

5.重复1-4步多次，选取均方误差最小的作为结果

posted @ 2019-05-05 20:34 shensobaolibin 阅读(800) 评论(0) 收藏举报

刷新页面返回顶部

自挂逸夫楼

机器学习复习

公告