随笔分类 - 机器学习
机器学习笔记-EM算法与混合高斯模型(GMM)
摘要:EM算法可以用于解决数据缺失的参数估计问题(隐变量的存在实际上就是数据缺失问题,缺失了各个样本来源于哪一类的记录)
阅读全文
机器学习笔记-朴素贝叶斯
摘要:朴素贝叶斯(Naive Bayes)是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y
阅读全文
机器学习笔记-XGBoost
摘要:XGBoost是Extreme Gradient Boosting的缩写,而Gradient Boosting起源于Friedman的文章*Greedy Function Approximation: A Gradient Boosting Machine*,这是一篇关于梯度提升树(gradient boosted trees)的教程,大部分内容基于Tianqi Chen的
阅读全文
机器学习笔记-梯度提升树(GBDT)
摘要:在Gradient Boosting中则将负梯度作为上一轮基学习器犯错的衡量指标,在下一轮学习中通过拟合负梯度来纠正上一轮犯的错误。这里的关键问题是:为什么通过拟合负梯度就能纠正上一轮的错误了?Gradient Boosting的发明者给出的答案是:函数空间的梯度下降。
阅读全文
机器学习笔记-AdaBoost算法
摘要:AdaBoost算法的全称是自适应增强(Adaptive Boosting),是一个具有里程碑意义的算法,因为其是第一个具有适应性的算法,即能适应基学习器各自的训练误差率。
阅读全文
机器学习笔记-随机森林
摘要:随机森林(Random Forest, 简称RF)[Breiman, 2001a]是Bagging的一个扩展变体。随机森林在以决策树为基学习器构建Bagging集成的基础上,进一步在基决策树的训练过程中引入了随机属性选择。
阅读全文
机器学习笔记-集成学习简介
摘要:集成学习(ensemble learning),有时也被称为多分类器系统multi-classifier system)、基于委员会的学习(committee-based learning)等。可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。
阅读全文
机器学习笔记-决策树(二)
摘要:上一篇笔记决策树(一)里学习了决策树的ID3算法,和ID3算法的改进版C4.5算法。对于C4.5算法,我们也提到了它的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归等。对于这些问题,CART算法大部分做了改进。下面我们就来学习CART算法的相关内容。
阅读全文
机器学习笔记-决策树(一)
摘要:决策树(decision tree)是一类常见的机器学习方法。以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新的示例进行分类,这个把样本分类的任务,可以看作对“当前样本属于正类吗?”这个问题的“决策”或“判别”过程。顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。
阅读全文
机器学习笔记-梯度下降法
摘要:无论是在线性回归(Linear Regression)、逻辑回归(Logistic Regression)还是神经网络(Neural Network)等等,都会用到梯度下降算法。
阅读全文
机器学习笔记-为什么梯度反方向是函数值下降最快的方向
摘要:在学习机器学习算法的时候,很多训练算法用的就是梯度下降,然后很多资料也说朝着梯度的反方向变动,函数值下降最快
阅读全文
机器学习笔记-Logistic回归
摘要:在前面的笔记中,我们已经了解了线性模型。线性模型虽然简单,却有丰富的变化。
阅读全文
机器学习笔记-L2正则化、L1正则化与稀疏性
摘要:L2正则化、L1正则化与稀疏性的原理是什么?
阅读全文
机器学习笔记-Ridge回归、Lasso回归和弹性网回归
摘要:岭回归与Lasso回归的出现是为了解决线性回归出现的过拟合以及在通过正规方程方法求解
阅读全文
机器学习笔记-多项式回归
摘要:线性回归模型形式简单,有很好的解释性,但它有不少假设前提,其中最重要的一条就是数据之间存在着线性关系,但是在实际生活中,很多数据之间是非线性关系,虽然也可以用线性回归拟合非线性回归,但是效果将会很差。这个时候可以尝试使用多项式回归。
阅读全文
机器学习笔记-线性回归
摘要:线性模型试图学的一个通过特征的线性组合来进行预测的函数
阅读全文
机器学习笔记-坐标下降法
摘要:坐标下降法(Coordinate Descent)是一个简单但却高效的非梯度优化算法。
阅读全文
机器学习笔记-k均值聚类
摘要:k均值(k-means)算法是最为经典的基于划分的聚簇方法,是十大经典数据挖掘算法之一。
阅读全文
机器学习笔记-准确率、错误率、精确率、召回率、F1-Score、PR曲线 & ROC曲线
摘要:准确率、错误率、精确率、召回率、F1-Score、PR曲线 & ROC曲线
阅读全文
机器学习笔记-信息熵、条件熵、相对熵、交叉熵和互信息
摘要:熵 (Entropy) 这一词最初来源于热力学。1948年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也被称为香农熵 (Shannon entropy)、信息熵 (information entropy)。
阅读全文
浙公网安备 33010602011771号