机器学习知识总结

机器学习知识总结

绪论

机器学习能做什么

  • 互联网搜索
    自动汽车驾驶
    画作鉴别
    古文献修复
    竞选

如图所示的决策树.易知,该决策树的验证集精度为42.9%.

后剪枝首先考察图中的结点⑥.若将其领衔的分支剪除,则相当于把⑥替换为叶结点.替换后的叶结点包含编号为{7,15}的训练样本,于是,该叶结点的类别标记为“好瓜”,此时决策树的验证集精度提高至57.1%.于是,后剪枝策略决定剪枝,然后考察结点⑤,若将其领衔的子树替换为叶结点,则替换后的叶结点包

含编号为{6,7,15}的训练样例,叶结点类别标记为“好瓜”,此时决策树验证

后的模型集精度仍为57.1%,根据奥卡姆剃刀原则,精度相同的时候,剪枝后的模型更好,所以要剪掉。

优缺点:

后剪枝决策树通常比预剪枝决策树保留了更多的分支,一般情形下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树,但后剪枝过程是在生成完全决策树之后进行的,并且要自底向上地对树中的所有非叶结点进行逐-考察,因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多.

一、过拟合和欠拟合

过拟合

学习器把训练样本学得太好,把训练样本本身的一些特点当成了所有潜在样本都有的特性,导致泛化性能降低

欠拟合

对训练样本的一般性质尚未学好

第二章:模型评估:

评估方法:

  1. 留出法
  2. 交叉验证法
  3. 自助法

性能度量:是衡量模型泛化能力的评价标准,反映了任务需求

image-20210702174859649

image-20210702175019821

偏差与方差

· *期望泛化误差=方差+偏差*

· *偏差刻画学习器的拟合能力*

· *方差体现学习器的稳定性*

第三章:线性模型

线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数

简单、基本、可理解性好

对率回归:(分类学习算法)

• 无需事先假设数据分布

• 可得到“类别”的近似概率预测

• 可直接应用现有数值优化算法求取最优解

第四章:决策树

一个根节点和多个内部节点和叶节点

* 每个非叶节点表示一个特征属性测试。

* 每个分支代表这个特征属性在某个值域上的输出。

* 每个叶子节点存放一个类别。

* 每个节点包含的样本集合通过属性测试被划分到子节点中,根节点包含样本全集。

决策树的构造是一个递归的过程,有三种情形会导致递归返回:(1) 当前结点包含的样本全属于同一类别,这时直接将该节点标记为叶节点,并设为相应的类别;(2) 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分,这时将该节点标记为叶节点,并将其类别设为该节点所含样本最多的类别;(3) 当前结点包含的样本集合为空,不能划分,这时也将该节点标记为叶节点,并将其类别设为父节点中所含样本最多的类别。

* 预剪枝(prepruning):在构造的过程中先评估,再考虑是否分支。

* 后剪枝(post-pruning):在构造好一颗完整的决策树后,自底向上,评估分支的必要性。

连续值与缺失值处理

对于连续值的属性,若每个取值作为一个分支则显得不可行,因此需要进行离散化处理,常用的方法为二分法,基本思想为:给定样本集D与连续属性α,二分法试图找到一个划分点t将样本集D在属性α上分为≤t与>t。

* 首先将α的所有取值按升序排列,所有相邻属性的均值作为候选划分点(n-1个,n为α所有的取值数目)。

* 计算每一个划分点划分集合D(即划分为两个分支)后的信息增益。

* 选择最大信息增益的划分点作为最优划分点。

image-20210702175501036

image-20210702175546777

image-20210702175608859

预剪枝(prepruning):在构造的过程中先评估,再考虑是否分支。

后剪枝(post-pruning):在构造好一颗完整的决策树后,自底向上,评估分支的必要性。

第五章:神经网络

概念

他是一个具有适应的简单单元组成的一个并行交汇互通的网络,它的组织能够模拟生物神经对真实世界作出反应。

前馈网络:神经元之间不存在同层连接也不存在跨层连接,即网络中无环或者回路。

提升模型复杂度:

  1. 提升学习能力:
    • 增加隐层神经元数目
    • 增加隐层数目
  2. 导致过拟合风险
    1. 使用大量训练数据
    2. 增大训练难度:使用若干启发式诀窍

第六章:支持向量机

image-20210702180241388

image-20210702180306606

第七章:贝叶斯分类器

第八章:集成学习

集成学习:

通过构建和结合多个学习器来提升效果

boosting

个体学习器存在强依赖关系,
串行生成
每次调整训练数据的样本分布

Bagging与随机森林:

个体学习器不存在强依赖关系
并行化生成
自助采样法

Bagging是一种并行式的集成学习方法,即基学习器的训练之间没有前后顺序,可以同时进行
Bagging使用“有放回”采样的方式选取训练集,训练集包含m个样本,进行m次有放回的随机采样操作得到m个样本的采样集(有接近36.8%的样本没有被采到)。重复T次就可以采集到T个包含m个样本的数据集,从而训练出T个基学习器,最终对这T个基学习器的输出进行结合。

可以看出Bagging主要通过样本的扰动来增加基学习器之间的多样性,因此Bagging的基学习器应为那些对训练集十分敏感的不稳定学习算法,例如:神经网络与决策树等。

第九章

聚类

性能度量:

  1. 外部指标
  2. 内部指标

距离度量的性质:

  • 非负性:
  • 同一性:
  • 对称性:
  • 直递性

总结最大似然法估计参数的过程,一般分为以下四个步骤:

* 1.写出似然函数;

* 2.对似然函数取对数,并整理;

* 3.求导数,令偏导数为0,得到似然方程组;

* 4.解似然方程组,得到所有参数即为所求。

K-Means的思想十分简单,*首先随机指定类中心,根据样本与类中心的远近划分类簇,接着重新计算类中心,迭代直至收敛*

简单来理解DBSCAN便是:*找出一个核心对象所有密度可达的样本集合形成簇*。首先从数据集中任选一个核心对象A,找出所有A密度可达的样本集合,将这些样本形成一个密度相连的类簇,直到所有的核心对象都遍历完。

K-Means与LVQ都试图以类簇中心作为原型指导聚类,其中K-Means通过EM算法不断迭代直至收敛,LVQ使用真实类标辅助聚类;高斯混合聚类采用高斯分布来描述类簇原型;密度聚类则是将一个核心对象所有密度可达的样本形成类簇,直到所有核心对象都遍历完;最后层次聚类是一种自底向上的树形聚类方法,不断合并最相近的两个小类簇

image-20210702163733735

posted @ 2021-07-03 20:36  君吖  阅读(167)  评论(0)    收藏  举报