随笔分类 -  机器学习

摘要:Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04-08 声明: 1)该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献 阅读全文
posted @ 2017-03-18 07:56 知识天地 阅读(270) 评论(0) 推荐(0)
摘要:Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04-08 声明: 1)该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献 阅读全文
posted @ 2017-03-18 07:55 知识天地 阅读(259) 评论(0) 推荐(0)
摘要:Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04-08 声明: 1)该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献 阅读全文
posted @ 2017-03-18 07:54 知识天地 阅读(483) 评论(0) 推荐(0)
摘要:译注:文内提供的代码和运行结果有一定差异,可以从这里下载完整代码对照参考。另外,我自己跟着教程做的时候,发现我的库无法解析字符串类型的特征,所以只用其中一部分特征做的,具体数值跟文章中不一样,反而可以帮助理解文章。所以大家其实也可以小小修改一下代码,不一定要完全跟着教程做~ ^0^需要提前安装好的库 阅读全文
posted @ 2017-01-17 17:04 知识天地 阅读(84432) 评论(4) 推荐(3)
摘要:之前学习机器学习和数据挖掘的时候,很多都是知道这些算法的设计机制,对数学推导和求解过程依然是一知半解,最近看了一些机器学习算法的求解和各种优化算法,也发现了这些算法设计和公式推导背后的数学精妙之处和随处可见的最优化的影子。还是决定从最优化理论开始补起,本文主要内容如下: 参考文献: —1. 《最优化 阅读全文
posted @ 2017-01-12 09:59 知识天地 阅读(7347) 评论(1) 推荐(0)
摘要:感觉狼厂有些把机器学习和数据挖掘神话了,机器学习、数据挖掘的能力其实是有边界的。机器学习、数据挖掘永远是给大公司的业务锦上添花的东西,它可以帮助公司赚更多的钱,却不能帮助公司在与其他公司的竞争中取得领先优势,所以小公司招聘数据挖掘/机器学习不是为了装逼就是在自寻死路。可是相比Java和C++语言开发 阅读全文
posted @ 2017-01-12 09:58 知识天地 阅读(33506) 评论(0) 推荐(1)
摘要:Scala是一门多范式的编程语言,一种类似Java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优 阅读全文
posted @ 2017-01-12 09:56 知识天地 阅读(666) 评论(0) 推荐(0)
摘要:gbdt(又称Gradient Boosted Decision Tree/Grdient Boosted Regression Tree),是一种迭代的决策树算法,该算法由多个决策树组成。它最早见于yahoo,后被广泛应用在搜索排序、点击率预估上。 xgboost是陈天奇大牛新开发的Boostin 阅读全文
posted @ 2017-01-12 09:55 知识天地 阅读(1297) 评论(0) 推荐(1)
摘要:正则化方法:防止过拟合,提高泛化能力 在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出 阅读全文
posted @ 2017-01-03 15:24 知识天地 阅读(797) 评论(0) 推荐(0)
摘要:1.背景 关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT 地址和xgboost导读和实战 地址,希望对xgboost原理进行深入理解。 2.xgboost vs gbdt 说到xgboost,不得不说gbdt。了解gbdt可以看我这篇文章 地址,gb 阅读全文
posted @ 2016-12-30 20:11 知识天地 阅读(11745) 评论(0) 推荐(1)
摘要:GBDT算法是一种监督学习算法。监督学习算法需要解决如下两个问题: 1.损失函数尽可能的小,这样使得目标函数能够尽可能的符合样本 2.正则化函数对训练结果进行惩罚,避免过拟合,这样在预测的时候才能够准确。 GBDT算法需要最终学习到损失函数尽可能小并且有效的防止过拟合。 以样本随时间变化对某件事情发 阅读全文
posted @ 2016-12-30 19:10 知识天地 阅读(1105) 评论(0) 推荐(0)
摘要:机器学习中离散特征的处理方法 Updated: August 25, 2016 Learning with counts is an efficient way to create a compact set of features for a dataset, based on counts of 阅读全文
posted @ 2016-10-31 14:34 知识天地 阅读(317) 评论(0) 推荐(0)
摘要:版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy 前言: 决策树这种算法有着很多良好的特 阅读全文
posted @ 2016-10-31 14:21 知识天地 阅读(153) 评论(0) 推荐(0)
摘要:Gradient Boosting Decision Tree,即梯度提升树,简称GBDT,也叫GBRT(Gradient Boosting Regression Tree),也称为Multiple Additive Regression Tree(MART),阿里貌似叫treelink。首先学习G 阅读全文
posted @ 2016-10-31 14:20 知识天地 阅读(700) 评论(0) 推荐(0)
摘要:之前一篇文章简单地讲了XGBoost的实现与普通GBDT实现的不同之处,本文尝试总结一下GBDT运用的正则化技巧。 Early Stopping Early Stopping是机器学习迭代式训练模型中很常见的防止过拟合技巧,维基百科里如下描述: In machine learning, early 阅读全文
posted @ 2016-10-31 14:19 知识天地 阅读(1727) 评论(0) 推荐(0)
摘要:最近两天在学习GBDT,看了一些资料,了解到GBDT由很多回归树构成,每一棵新回归树都是建立在上一棵回归树的损失函数梯度降低的方向。 以下为自己的理解,以及收集到的觉着特别好的学习资料。 1、GBDT可用于回归任务和分类任务。 GBDT做回归任务时,每一棵子树的构建过程与cart回归树的建立过程相同 阅读全文
posted @ 2016-10-31 14:16 知识天地 阅读(4375) 评论(0) 推荐(0)
摘要:本文整理了网上几位大牛的博客,详细地讲解了CNN的基础结构与核心思想,欢迎交流。 [1]Deep learning简介 [2]Deep Learning训练过程 [3]Deep Learning模型之:CNN卷积神经网络推导和实现 [4]Deep Learning模型之:CNN的反向求导及练习 [5 阅读全文
posted @ 2016-10-10 18:29 知识天地 阅读(7334) 评论(0) 推荐(1)
摘要:申明:本文非笔者原创,原文转载自:http://www.sigvc.org/bbs/thread-2187-1-3.html 4.2、初级(浅层)特征表示 既然像素级的特征表示方法没有作用,那怎样的表示才有用呢? 1995 年前后,Bruno Olshausen和 David Field 两位学者任 阅读全文
posted @ 2016-10-10 18:27 知识天地 阅读(1041) 评论(0) 推荐(0)
摘要:这里以二元分类为例子,给出最基本原理的解释 GBDT 是多棵树的输出预测值的累加 GBDT的树都是 回归树 而不是分类树 分类树 分裂的时候选取使得误差下降最多的分裂 计算的技巧 最终分裂收益按照下面的方式计算,注意圆圈内的部分是固定值 GBDT 二分类 GBDT在实现中可以完全复用上面的计算方法框 阅读全文
posted @ 2016-10-10 18:21 知识天地 阅读(631) 评论(1) 推荐(0)
摘要:前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。 美国金融银行业的大数据算法 阅读全文
posted @ 2016-10-10 18:05 知识天地 阅读(3739) 评论(0) 推荐(0)