09 2018 档案
摘要:集成学习(ensemble learning) 集成学习通过构建多个个体学习器,然后再用某种策略将他们结合起来,产生一个有较好效果的强学习器来完成任务。基本原理如下图所示。这里主要有三个关键点:个体学习器的同质异质、个体学习器的生成方式、结合策略。 同质异质 。首先需要明确的是个体学习器至少不差于弱
阅读全文
摘要:前面都只是讨论了向量机的最终形式以及推导过程,但是最终形式的求解没有给出。有许多最优化算法可以用于问题求解,但是当训练样本容量很大时,这些算法往往变得非常低效,以致无法使用。而SMO算法便是一种便捷高效算法。其实理清思路后,原理很好理解。避免麻烦直接贴图片。 参考: 李航《统计学习方法》 周志华《机
阅读全文
摘要:线性支持向量机 首先我们给出下面两种情况,如图所示。 第一种数据线性可分,那么肯定存在唯一的超平面将样本完全分开,并满足间隔最大化,此时分类器就是上一篇中的 线性可分支持向量机 。但是现实情况中完全线性可分情况很少。 第二种数据中,由于蓝绿两个样本的存在,实际上根本不可能存在一个超平面(二维中为直线
阅读全文
摘要:原理 SVM基本模型是定义在特征空间上的二分类线性分类器(可推广为多分类),学习策略为间隔最大化,可形式化为一个求解凸二次规划问题,也等价于正则化的合页损失函数的最小化问题。求解算法为序列最小最优化算法(SMO) 当数据集线性可分时,通过硬间隔最大化,学习一个线性分类器;数据集近似线性可分时,即存在
阅读全文
摘要:参数解析 参数| DecisionTreeClassifier |DecisionTreeRegressor : :|: |: 特征选择标准criterion|可以使用"gini"或者"entropy",前者代表基尼系数,后者代表信息增益。一般说使用默认的基尼系数"gini"就可以了,即CART算法
阅读全文
摘要:决策树是一种基本的分类与回归方法。以分类为例,可以认为是if then规则的集合,也可以认为是定义在特征空间与类别空间上的条件概率分布。一般分为三个步骤:特征选择,决策树生成,决策树剪枝。 熵与条件熵 熵是度量随机变量不确定性(集合不纯度)的一种指标。$X$是一个取有限个值得离散随机变量,其概率分布
阅读全文
浙公网安备 33010602011771号