机器学习知识总结

绪论

机器学习能做什么

互联网搜索
自动汽车驾驶
画作鉴别
古文献修复
竞选

如图所示的决策树.易知，该决策树的验证集精度为42.9%.

后剪枝首先考察图中的结点⑥.若将其领衔的分支剪除，则相当于把⑥替换为叶结点.替换后的叶结点包含编号为{7,15}的训练样本，于是，该叶结点的类别标记为“好瓜”，此时决策树的验证集精度提高至57.1%.于是，后剪枝策略决定剪枝，然后考察结点⑤，若将其领衔的子树替换为叶结点，则替换后的叶结点包

含编号为{6,7,15}的训练样例，叶结点类别标记为“好瓜”，此时决策树验证

后的模型集精度仍为57.1%，根据奥卡姆剃刀原则，精度相同的时候，剪枝后的模型更好，所以要剪掉。

优缺点：

后剪枝决策树通常比预剪枝决策树保留了更多的分支，一般情形下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树，但后剪枝过程是在生成完全决策树之后进行的，并且要自底向上地对树中的所有非叶结点进行逐-考察，因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多.

一、过拟合和欠拟合

过拟合

学习器把训练样本学得太好，把训练样本本身的一些特点当成了所有潜在样本都有的特性，导致泛化性能降低

欠拟合

对训练样本的一般性质尚未学好

第二章：模型评估：

评估方法：

留出法
交叉验证法
自助法

性能度量：是衡量模型泛化能力的评价标准，反映了任务需求

偏差与方差：

· *期望泛化误差=方差+偏差*

· *偏差刻画学习器的拟合能力*

· *方差体现学习器的稳定性*

第三章：线性模型

线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数

简单、基本、可理解性好

对率回归：（分类学习算法）

• 无需事先假设数据分布

• 可得到“类别”的近似概率预测

• 可直接应用现有数值优化算法求取最优解

第四章：决策树

一个根节点和多个内部节点和叶节点

* 每个非叶节点表示一个特征属性测试。

* 每个分支代表这个特征属性在某个值域上的输出。

* 每个叶子节点存放一个类别。

* 每个节点包含的样本集合通过属性测试被划分到子节点中，根节点包含样本全集。

决策树的构造是一个递归的过程，有三种情形会导致递归返回：(1) 当前结点包含的样本全属于同一类别，这时直接将该节点标记为叶节点，并设为相应的类别；(2) 当前属性集为空，或是所有样本在所有属性上取值相同，无法划分，这时将该节点标记为叶节点，并将其类别设为该节点所含样本最多的类别；(3) 当前结点包含的样本集合为空，不能划分，这时也将该节点标记为叶节点，并将其类别设为父节点中所含样本最多的类别。

* 预剪枝（prepruning）：在构造的过程中先评估，再考虑是否分支。

* 后剪枝（post-pruning）：在构造好一颗完整的决策树后，自底向上，评估分支的必要性。

连续值与缺失值处理

对于连续值的属性，若每个取值作为一个分支则显得不可行，因此需要进行离散化处理，常用的方法为二分法，基本思想为：给定样本集D与连续属性α，二分法试图找到一个划分点t将样本集D在属性α上分为≤t与＞t。

* 首先将α的所有取值按升序排列，所有相邻属性的均值作为候选划分点（n-1个，n为α所有的取值数目）。

* 计算每一个划分点划分集合D（即划分为两个分支）后的信息增益。

* 选择最大信息增益的划分点作为最优划分点。

预剪枝（prepruning）：在构造的过程中先评估，再考虑是否分支。

后剪枝（post-pruning）：在构造好一颗完整的决策树后，自底向上，评估分支的必要性。

第五章：神经网络

概念

他是一个具有适应的简单单元组成的一个并行交汇互通的网络，它的组织能够模拟生物神经对真实世界作出反应。

前馈网络：神经元之间不存在同层连接也不存在跨层连接，即网络中无环或者回路。

提升模型复杂度：

提升学习能力：
- 增加隐层神经元数目
- 增加隐层数目
导致过拟合风险
1. 使用大量训练数据
2. 增大训练难度：使用若干启发式诀窍

第六章：支持向量机

第七章：贝叶斯分类器

第八章:集成学习

集成学习：

通过构建和结合多个学习器来提升效果

boosting

个体学习器存在强依赖关系，
串行生成
每次调整训练数据的样本分布

Bagging与随机森林:

个体学习器不存在强依赖关系
并行化生成
自助采样法

Bagging是一种并行式的集成学习方法，即基学习器的训练之间没有前后顺序，可以同时进行
Bagging使用“有放回”采样的方式选取训练集，训练集包含m个样本，进行m次有放回的随机采样操作得到m个样本的采样集（有接近36.8%的样本没有被采到）。重复T次就可以采集到T个包含m个样本的数据集，从而训练出T个基学习器，最终对这T个基学习器的输出进行结合。

可以看出Bagging主要通过样本的扰动来增加基学习器之间的多样性，因此Bagging的基学习器应为那些对训练集十分敏感的不稳定学习算法，例如：神经网络与决策树等。

第九章

聚类

性能度量：

外部指标
内部指标

距离度量的性质：

非负性：
同一性：
对称性：
直递性

总结最大似然法估计参数的过程，一般分为以下四个步骤：

* 1.写出似然函数；

* 2.对似然函数取对数，并整理；

* 3.求导数，令偏导数为0，得到似然方程组；

* 4.解似然方程组，得到所有参数即为所求。

K-Means的思想十分简单，*首先随机指定类中心，根据样本与类中心的远近划分类簇，接着重新计算类中心，迭代直至收敛*。

简单来理解DBSCAN便是：*找出一个核心对象所有密度可达的样本集合形成簇*。首先从数据集中任选一个核心对象A，找出所有A密度可达的样本集合，将这些样本形成一个密度相连的类簇，直到所有的核心对象都遍历完。

K-Means与LVQ都试图以类簇中心作为原型指导聚类，其中K-Means通过EM算法不断迭代直至收敛，LVQ使用真实类标辅助聚类；高斯混合聚类采用高斯分布来描述类簇原型；密度聚类则是将一个核心对象所有密度可达的样本形成类簇，直到所有核心对象都遍历完；最后层次聚类是一种自底向上的树形聚类方法，不断合并最相近的两个小类簇

posted @ 2021-07-03 20:36 君吖阅读(167) 评论(0) 收藏举报

刷新页面返回顶部

.君Yoko

机器学习知识总结

机器学习知识总结

绪论

一、过拟合和欠拟合

第二章：模型评估：

第三章：线性模型

对率回归：（分类学习算法）

第四章：决策树

连续值与缺失值处理

第五章：神经网络

第六章：支持向量机

第七章：贝叶斯分类器

第八章:集成学习

第九章

聚类

公告