随笔分类 -  机器学习算法

摘要:XGBoost算法在实际运行的过程中,可以通过以下要点进行参数调优: (1)添加正则项: 在模型参数中添加正则项,或加大正则项的惩罚力度,即通过调整加权参数,从而避免模型出现过拟合的情况。 (2)控制决策树的层数: 通过叶子结点数目控制决策树的层数,视乎样本量大小决定,对于10万以下 的样本,一般在 阅读全文
posted @ 2019-01-06 14:09 时间带着假象流淌 阅读(1523) 评论(0) 推荐(0)
摘要:1 抽象成数学问题明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情,胡乱尝试时间成本是非常高的。这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归为其中的某类问题。 2 获取数据数据决定了机器学习结 阅读全文
posted @ 2018-12-28 15:46 时间带着假象流淌 阅读(329) 评论(0) 推荐(0)
摘要:1.机器学习中,为何要经常对数据做归一化: 1)归一化为什么能提高梯度下降法求解最优解的速度: 2)归一化有可能提高精度 2.归一化的类型 3.哪些机器学习不需要做归一化处理: 4.树形结构为什么不需要进行归一化: 阅读全文
posted @ 2018-12-27 22:21 时间带着假象流淌 阅读(1698) 评论(0) 推荐(0)
摘要:剪枝是决策树学习算法中对付过拟合的主要手段,决策树剪枝的基本策略有预剪枝和后剪枝 预剪枝: 是指在决策树生成过程中,对每个节点在划分前先进行估计,若当前的划分不能带来泛化性能的提升,则停止划分,并将当前节点标记为叶节点 后剪枝: 是指先从训练集生成一颗完整的决策树,然后自底向上对非叶节点进行考察,若 阅读全文
posted @ 2018-12-17 20:17 时间带着假象流淌 阅读(596) 评论(0) 推荐(0)
摘要:原文出处:https://www.cnblogs.com/pinard/p/6131423.html 集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集 阅读全文
posted @ 2018-11-27 15:34 时间带着假象流淌 阅读(692) 评论(0) 推荐(0)
摘要:曼哈顿距离只计算水平或垂直距离,有维度的限制。另一方面,欧氏距离可用于任何空间的距离计算问题。 因为,数据点可以存在于任何空间,欧氏距离是更可行的选择。例如:想象一下国际象棋棋盘,象或车所 做的移动是由曼哈顿距离计算的,因为它们是在各自的水平和垂直方向做的运动 阅读全文
posted @ 2018-11-16 14:23 时间带着假象流淌 阅读(3875) 评论(0) 推荐(0)
摘要:1.SVM: SVM,全称是support vector machine,中文名叫支持向量机。SVM是一个面向数据的分类算法,它的目标是为确定一个分类超平面,从而将不同的数据分隔开。 2.SVM为什么采用间隔最大化: 1.当训练数据可分的时候,存在很多超平面可以将数据分开 2.感知机利用误分类最小策 阅读全文
posted @ 2018-11-14 15:51 时间带着假象流淌 阅读(847) 评论(0) 推荐(0)
摘要:Logistic回归目的是从特征学习出一个0/1分类模型,而这个模型是将特性的线性组合作为自变量,由于自变量的取值范围是负无穷到正无穷。 因此,使用logistic函数(或称作sigmoid函数)将自变量映射到(0,1)上,映射后的值被认为是属于y=1的概率。 阅读全文
posted @ 2018-11-08 16:04 时间带着假象流淌 阅读(3100) 评论(0) 推荐(0)
摘要:过拟合:当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了,通俗点就是:模型在训练集中测试的准确度远远高于在测试集中的准确度。 过拟合问题通常发生在变量特征过多的时候。这种情况下训练出的方程总是能很好的拟合训练数据,也就是说,我们的代价函数可能非常接近于0 阅读全文
posted @ 2018-11-07 16:53 时间带着假象流淌 阅读(1207) 评论(0) 推荐(0)
摘要:机器学习最通俗的解释就是让机器学会决策。对于我们人来说,比如去菜市场里挑选芒果,从一堆芒果中拿出一个,根据果皮颜色、大小、软硬等属性或叫做特征,我们就会知道它甜还是不甜。类似的,机器学习就是把这些属性信息量化后输入计算机模型,从而让机器自动判断一个芒果是甜是酸,这实际上就是一个分类问题。 分类和回归 阅读全文
posted @ 2018-11-07 16:33 时间带着假象流淌 阅读(3579) 评论(0) 推荐(0)
摘要:KNN简介 KNN(k-NearestNeighbor)算法的思想总结一下:就是在数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为: 1.计算测试数 阅读全文
posted @ 2018-10-28 22:40 时间带着假象流淌 阅读(729) 评论(0) 推荐(0)