随笔分类 - 机器学习算法理论
摘要:一、距离的度量 几种常见的距离度量方式要了解,其中闵可夫斯基距离当p=2时候就是欧式距离,等于1时就是街区距离 二、K-means 步骤: 1、随机选择K个类别中心 2、计算每个样本与中心的距离,标记为距离最小的那个类 3、计算每个簇的平均值作为新的中心,然后重新重复第二步,直到两次样本中心的变化小
阅读全文
摘要:这个博主写的很好:http://blog.csdn.net/on2way/article/details/47729419 一、学习步骤: 1、线性可分支持向量机:就是最基本的原始模式 2、线性支持向量机:在可分基础上加入了一个惩罚因子ξ 3、非线性支持向量机:在线性基础上再引入核函数 所以最重要的
阅读全文
摘要:集成学习中还有一个重要的类别是Boosting,这个是基学习器具有较强依赖串行而成的算法,目前主流的主要有三个算法:GBDT,Adaboost,XGBoost 这个链接可以看看:https://www.cnblogs.com/willnote/p/6801496.html 不同点: 1、adaboo
阅读全文
摘要:集成学习分成Bagging和Boosting两大类,这里也分成两篇来总结,两个类别的区别如下: 主要根据集成的基学习期生成方式来分的,一个是强依赖关系,串行而成,代表是Boosting。另一种是不存在强依赖关系同时生成,代表是Bagging和随机森林(Random Forest) 一、Bagging
阅读全文
摘要:一、决策树 1、基本流程 有三种情况会让递归停止:1、当前节点包含的样本属于同一类别,无需划分。2、属性集为空,所有样本在所有属性上取值都一致,返回的是这个节点样本最多的类别。3、当前节点样本为空,这时候返回父节点的样本最多的类别 2、划分选择 1)熵: 2)信息增益:,信息增益最大的就是最优的选择
阅读全文
摘要:一、线性回归 1、基本形式 其中:W表示了各个属性在变量中的权重 2、线性回归求解 损失函数的推导过程运用高斯分布+极大似然估计推导如下 所有样本满足这个公式:,其中e是误差项,假设满足高斯分布,可以写出概率分布函数如下 ,将e带入到概率分布函数中得到 运用极大似然估计方法,,然后取对数,得到对数似
阅读全文