随笔分类 - ML基础
摘要:转自:https://www.sohu.com/a/134414348_455817 首先看一个长相标致的箱线图。水妈模拟了一个样本数据,是学生期末考试得分,箱线图如图1所示。 图1 学生期末考试成绩箱线图 看图说话,注意以下几个点: 箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。 箱
阅读全文
摘要:建模数据的预处理的过程中,变量分箱(即变量离散化)往往是较为核心一环。变量分箱的优劣往往会影响模型评分效果. 一,数据分箱的重要性 1.对异常数据有比较好的鲁棒性. 2.在逻辑回归模型中,单个变量分箱之后每个箱有自己独立的权重,相当于给模型加入了非线性的能力,能够提升模型的表达能力,极大拟合. 3.
阅读全文
摘要:在集成学习方法的两个流派中,boosting流派特点是各个弱学习器之间有依赖关系;bagging流派的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。 一、Bagging介绍 先看一个Bagging的一个概念图(图来自https://www
阅读全文
摘要:推荐先看一手官方的Installation Guide.我用的是ubuntu 16.04,一些要求如下图: 主要是OpenCL以及libboost两个环境的要求. (1) OpenCL的安装.我这里之前安装了NVIDA-395的驱动以及CUDA 9.0,只需要在编译的时候给出对应的path就可以了(
阅读全文
摘要:引言 GBDT已经有了比较成熟的应用,例如XGBoost和pGBRT,但是在特征维度很高数据量很大的时候依然不够快。一个主要的原因是,对于每个特征,他们都需要遍历每一条数据,对每一个可能的分割点去计算信息增益。为了解决这个问题,本文提出了两个新技术:Gradient-based One-Side S
阅读全文
摘要:Huber Loss 是一个用于回归问题的带参损失函数, 优点是能增强平方误差损失函数(MSE, mean square error)对离群点的鲁棒性。 当预测偏差小于 δ 时,它采用平方误差,当预测偏差大于 δ 时,采用的线性误差。 相比于最小二乘的线性回归,HuberLoss降低了对离群点的惩罚
阅读全文
摘要:分类变量的处理 编码方式: >> one-hot编码 >> 虚拟编码:one-hot编码对于k类别的变量编辑一个长度为k的特征向量,实际上自由变量只有k-1个。虚拟编码对于k类别的变量编辑一个长度为k-1的特征向量,使得编码更具有解释性 >> 效果编码:与虚拟编码类似,区别在于参照类由全部由-1的向
阅读全文
摘要:发数值部分 处理计数问题,对于大规模的数据,在实际处理的时候要考虑是保留原始的数值类型还是转成二值数,或者粗粒度的分箱操作.对于衡量可以二分类的数据,如果存在个别极端大的数值的数据会对带跑整体的预测,这个时候就需要设置一个threshold对数据二值化处理.下面主要记录一下分箱方法. yelp数据是
阅读全文
摘要:先上吴恩达老师的课件图 1.对于梯度下降而言,学习率很大程度上影响了模型收敛的速度.对于不同规模的特征,如果采用相同的学习率,那么如果学习率适应于scale大的数据,scale较小的数据由于学习率过大无法收敛;如果学习率适应于scale较小的数据,那么收敛的速度会变的很慢(对于大scale的数据而言
阅读全文
摘要:转自:https://www.zhihu.com/question/37096933 (另外再放一篇还不错的博客 https://blog.csdn.net/fantacy10000/article/details/90647686) L1正则化的话参数比较稀疏,相当于对特征做了选择; L2正则化话
阅读全文
摘要:(2020.4.9)再次阅读的时候,大致梳理了一下行文的思路。 Xgb原始论文先介绍了其损失函数,(2020.4.21跟进)损失函数用来指导每颗树的生成,也就是决定了在给定数据情况下,叶子节点的最优分裂方式。 其次是如果更新CART树的结构(也就是特征的划分方式),论文提出了一个基于贪心策略的特征划
阅读全文
摘要:Boost是集成学习方法中的代表思想之一,核心的思想是不断的迭代。boost通常采用改变训练数据的概率分布,针对不同的训练数据分布调用弱学习算法学习一组弱分类器。在多次迭代的过程中,当前次迭代所用的训练数据的概率分布会依据上一次迭代的结果而调整。也就是说训练数据的各样本是有权重的,这个权重本身也会随
阅读全文
摘要:转自:https://blog.csdn.net/livecoldsun/article/details/40833829 以前看EM算法的时候并没有理解透,这篇文章讲的很清楚,论证部分也较为直观。 $EM$算法的核心点在于解决在最大似然过程中log内套求和导致的高复杂计算问题,在求隐藏变量的后验分
阅读全文
摘要:本文主要介绍一个常见的分类框架--贝叶斯分类器。这篇文章分为三个部分:1. 贝叶斯决策论;2. 朴素贝叶斯分类器; 3. 半朴素贝叶斯分类器 贝叶斯决策论 在介绍贝叶斯决策论之前,先介绍两个概念:先验概率(prior probability)和后验概率(posterior probability)。
阅读全文
摘要:最近在看论文的时候看到论文中使用isomap算法把3D的人脸project到一个2D的image上。提到降维,我的第一反应就是PCA,然而PCA是典型的线性降维,无法较好的对非线性结构降维。ISOMAP是‘流形学习’中的一个经典算法,流形学习贡献了很多降维算法,其中一些与很多机器学习算法也有结合,先
阅读全文
摘要:先推荐一篇比较全面的博客: http://www.cnblogs.com/dreamvibe/p/4355141.html 简介 SVM(Support Vector Machine)中文名为支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归
阅读全文
摘要:最近在学习deeplearning的时候接触到了bottle-neck layer,好奇它的作用于是便扒了一些论文(论文链接放在文末吧),系统的了解一下bottle-neck feature究竟有什么用。 论文[1]中对bottle-neck feature的介绍: 对应的图示如下: 直观的理解是这
阅读全文
摘要:先简单理解一下卷积这个东西。 (以下转自https://blog.csdn.net/bitcarmanlee/article/details/54729807 知乎是个好东西) 1.知乎上排名最高的解释 首先选取知乎上对卷积物理意义解答排名最靠前的回答。 不推荐用“反转/翻转/反褶/对称”等解释卷积
阅读全文
摘要:搞卷积神经网络的时候突然发现自己不清楚神经网络怎么训练了,满脸黑线,借此机会复习一下把。 首先放一位知乎大佬的解释。https://www.zhihu.com/question/27239198?rf=24827633 链式法则大一的时候高数就学会了,不过如果直接利用链式法则的化冗余的计算可是发杂的
阅读全文