随笔分类 - 机器学习
主要记录机器学习算法,常见问题,及解决方案!仅代表个人观点,如有异议,我们可以共同讨论!
摘要:L0正则化:L0是指向量中非0的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。换句话说,让参数W是稀疏的。但不幸的是,L0范数的最优化问题是一个NP hard问题,而且理论证明,L1范数是L0范数的最优凸近似,因此通常使用L1范数来代替。 L1正则化:L1范数是指
阅读全文
摘要:记录一下,方便复习 总结: 参考:https://blog.csdn.net/lcczzu/article/details/88873854//交叉熵损失函数的作用及公式推导
阅读全文
摘要:转载自:https://baijiahao.baidu.com/s?id=1636737136973859154&wfr=spider&for=pc写的很清楚,并举例佐证,容易理解,推荐!sigmoid = 多标签分类问题=多个正确答案=非独占输出构建分类器,解决多个正确答案的问题时,用sigmoi
阅读全文
摘要:k-means:是无监督的分类算法 k代表要分的类数,即要将数据聚为k类; means是均值,代表着聚类中心的迭代策略. k-means算法思想: (1)随机选取k个聚类中心(一般在样本集中选取,也可以自己随机选取); (2)计算每个样本与k个聚类中心的距离,并将样本归到距离最小的那个类中; (3)
阅读全文
摘要:logistic回归,回归给人的直观印象只是要求解一个模型的系数,然后可以预测某个变量的回归值。而logistic回归在应用中多了一层含义,它经常应用于分类中。第一重认识:logistic是给真正的回归结果做分类,将回归值h(x(i))带入logistic公式可得到一个p概率值,当p>0.5,判定i
阅读全文
摘要:这里基本完全参考网络资源完成,有疑问欢迎留言! LinearRegression.h LinearRegression.cpp Test.cpp
阅读全文
摘要:Utils.h Utils.cpp
阅读全文
摘要:传统的GBDT是以CART作为基分类器,xgboost还支持线性分类器,这个时候XGBOOST相当于带L1和L2正则化的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统的GBDT在优化的hih只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。顺便提一下
阅读全文
摘要:1、梯度下降法 梯度下降法是最早最简单的,也是最为常用的最优化算法。梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被
阅读全文
摘要:提升决策树GBDT 梯度提升决策树算法是近年来被提及较多的一个算法,这主要得益于其算法的性能,以及该算法在各类数据挖掘以及机器学习比赛中的卓越表现,有很多人对GBDT算法进行了开源代码的开发,比较火的是陈天奇的XGBoost和微软的LightGBM 一、监督学习 1、 监督学习的主要任务 监督学习是
阅读全文
摘要:前言 集成学习是通过构建并结合多个学习器来完成学习任务,主要包含两类,一是 个体学习器间 存在 强依赖关系、必须串行生成得序列化方法,比如提升学习方法、提升树GBDT、xgboost等,主要思想是boosting迭代将弱学习器提升为强学习器;二是个体学习器之间不存在强依赖关系、可同时生成得并行化方法
阅读全文
摘要:转载地址:https://blog.csdn.net/u014248127/article/details/79015803 RF,GBDT,XGBoost,lightGBM都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善基本学习器的泛化能力
阅读全文
摘要:GBDT虽然是个强力的模型,但却有着一个致命的缺陷,不能用类似mini batch的方式来训练,需要对数据进行无数次的遍历。如果想要速度,就需要把数据都预加载在内存中,但这样数据就会受限于内存的大小;如果想要训练更多的数据,就要使用外存版本的决策树算法。虽然外存算法也有较多优化,SSD也在普及,但在
阅读全文
摘要:SVM有如下主要几个特点: (1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射; (2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心; (3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。 (4)SVM
阅读全文
摘要:0、思想: 对于给定的待分类项x,通过学习到的模型计算后验概率分布,即:在此项出现的条件下各个目标类别出现的概率,将后验概率最大的类作为x所属的类别。后验概率根据贝叶斯定理计算。 关键:为避免贝叶斯定理求解时面临的组合爆炸、样本稀疏问题,引入了条件独立性假设。用于分类的特征在类确定的条件下都是条件独
阅读全文
摘要:关于xgboost的学习推荐两篇博客,每篇看2遍,我都能看懂,你肯定没问题 两篇方法互通,知识点互补!记录下来,方便以后查看 第一篇:作者:milter链接:https://www.jianshu.com/p/7467e616f227 第二篇:https://blog.csdn.net/a1b2c3
阅读全文
摘要:1、 RF(随机森林)与GBDT之间的区别 相同点: 1)都是由多棵树组成的 2)最终的结果都是由多棵树一起决定 不同点: 1) 组成随机森林的树可以是分类树也可以是回归树,而GBDT只由回归树组成 2) 组成随机森林的树可是并行生成,而GBDT只能是串行生成 3) 随机森林的结果是多棵树表决决定,
阅读全文
摘要:协同过滤是通过将用户和其他用户和的数据进行对比来实现推荐。 我们不利用专家所给出的重要属性来描述物品从而计算他们之间的相似度,而是利用用户对他们的意见来计算相似度,这就是协同过滤中所使用的方法。它不关心物品的描述属性,而是严格的按照许多用户的观点来计算相似度。 相似度的度量一种是欧式距离,一种是皮尔
阅读全文

浙公网安备 33010602011771号