机器学习知识总结
机器学习知识总结
绪论
机器学习能做什么
- 互联网搜索
自动汽车驾驶
画作鉴别
古文献修复
竞选
如图所示的决策树.易知,该决策树的验证集精度为42.9%.
后剪枝首先考察图中的结点⑥.若将其领衔的分支剪除,则相当于把⑥替换为叶结点.替换后的叶结点包含编号为{7,15}的训练样本,于是,该叶结点的类别标记为“好瓜”,此时决策树的验证集精度提高至57.1%.于是,后剪枝策略决定剪枝,然后考察结点⑤,若将其领衔的子树替换为叶结点,则替换后的叶结点包
含编号为{6,7,15}的训练样例,叶结点类别标记为“好瓜”,此时决策树验证
后的模型集精度仍为57.1%,根据奥卡姆剃刀原则,精度相同的时候,剪枝后的模型更好,所以要剪掉。
优缺点:
后剪枝决策树通常比预剪枝决策树保留了更多的分支,一般情形下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树,但后剪枝过程是在生成完全决策树之后进行的,并且要自底向上地对树中的所有非叶结点进行逐-考察,因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多.
一、过拟合和欠拟合
过拟合
学习器把训练样本学得太好,把训练样本本身的一些特点当成了所有潜在样本都有的特性,导致泛化性能降低
欠拟合
对训练样本的一般性质尚未学好
第二章:模型评估:
评估方法:
- 留出法
- 交叉验证法
- 自助法
性能度量:是衡量模型泛化能力的评价标准,反映了任务需求
偏差与方差:
· *期望泛化误差=方差+偏差*
· *偏差刻画学习器的拟合能力*
· *方差体现学习器的稳定性*
第三章:线性模型
线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数
简单、基本、可理解性好
对率回归:(分类学习算法)
• 无需事先假设数据分布
• 可得到“类别”的近似概率预测
• 可直接应用现有数值优化算法求取最优解
第四章:决策树
一个根节点和多个内部节点和叶节点
* 每个非叶节点表示一个特征属性测试。
* 每个分支代表这个特征属性在某个值域上的输出。
* 每个叶子节点存放一个类别。
* 每个节点包含的样本集合通过属性测试被划分到子节点中,根节点包含样本全集。
决策树的构造是一个递归的过程,有三种情形会导致递归返回:(1) 当前结点包含的样本全属于同一类别,这时直接将该节点标记为叶节点,并设为相应的类别;(2) 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分,这时将该节点标记为叶节点,并将其类别设为该节点所含样本最多的类别;(3) 当前结点包含的样本集合为空,不能划分,这时也将该节点标记为叶节点,并将其类别设为父节点中所含样本最多的类别。
* 预剪枝(prepruning):在构造的过程中先评估,再考虑是否分支。
* 后剪枝(post-pruning):在构造好一颗完整的决策树后,自底向上,评估分支的必要性。
连续值与缺失值处理
对于连续值的属性,若每个取值作为一个分支则显得不可行,因此需要进行离散化处理,常用的方法为二分法,基本思想为:给定样本集D与连续属性α,二分法试图找到一个划分点t将样本集D在属性α上分为≤t与>t。
* 首先将α的所有取值按升序排列,所有相邻属性的均值作为候选划分点(n-1个,n为α所有的取值数目)。
* 计算每一个划分点划分集合D(即划分为两个分支)后的信息增益。
* 选择最大信息增益的划分点作为最优划分点。
预剪枝(prepruning):在构造的过程中先评估,再考虑是否分支。
后剪枝(post-pruning):在构造好一颗完整的决策树后,自底向上,评估分支的必要性。
第五章:神经网络
概念
他是一个具有适应的简单单元组成的一个并行交汇互通的网络,它的组织能够模拟生物神经对真实世界作出反应。
前馈网络:神经元之间不存在同层连接也不存在跨层连接,即网络中无环或者回路。
提升模型复杂度:
- 提升学习能力:
- 增加隐层神经元数目
- 增加隐层数目
- 导致过拟合风险
- 使用大量训练数据
- 增大训练难度:使用若干启发式诀窍
第六章:支持向量机
第七章:贝叶斯分类器
第八章:集成学习
集成学习:
通过构建和结合多个学习器来提升效果
boosting
个体学习器存在强依赖关系,
串行生成
每次调整训练数据的样本分布
Bagging与随机森林:
个体学习器不存在强依赖关系
并行化生成
自助采样法
Bagging是一种并行式的集成学习方法,即基学习器的训练之间没有前后顺序,可以同时进行
Bagging使用“有放回”采样的方式选取训练集,训练集包含m个样本,进行m次有放回的随机采样操作得到m个样本的采样集(有接近36.8%的样本没有被采到)。重复T次就可以采集到T个包含m个样本的数据集,从而训练出T个基学习器,最终对这T个基学习器的输出进行结合。
可以看出Bagging主要通过样本的扰动来增加基学习器之间的多样性,因此Bagging的基学习器应为那些对训练集十分敏感的不稳定学习算法,例如:神经网络与决策树等。
第九章
聚类
性能度量:
- 外部指标
- 内部指标
距离度量的性质:
- 非负性:
- 同一性:
- 对称性:
- 直递性
总结最大似然法估计参数的过程,一般分为以下四个步骤:
* 1.写出似然函数;
* 2.对似然函数取对数,并整理;
* 3.求导数,令偏导数为0,得到似然方程组;
* 4.解似然方程组,得到所有参数即为所求。
K-Means的思想十分简单,*首先随机指定类中心,根据样本与类中心的远近划分类簇,接着重新计算类中心,迭代直至收敛*。
简单来理解DBSCAN便是:*找出一个核心对象所有密度可达的样本集合形成簇*。首先从数据集中任选一个核心对象A,找出所有A密度可达的样本集合,将这些样本形成一个密度相连的类簇,直到所有的核心对象都遍历完。
K-Means与LVQ都试图以类簇中心作为原型指导聚类,其中K-Means通过EM算法不断迭代直至收敛,LVQ使用真实类标辅助聚类;高斯混合聚类采用高斯分布来描述类簇原型;密度聚类则是将一个核心对象所有密度可达的样本形成类簇,直到所有核心对象都遍历完;最后层次聚类是一种自底向上的树形聚类方法,不断合并最相近的两个小类簇

浙公网安备 33010602011771号