上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 140 下一页
摘要: 译注:文内提供的代码和运行结果有一定差异,可以从这里下载完整代码对照参考。另外,我自己跟着教程做的时候,发现我的库无法解析字符串类型的特征,所以只用其中一部分特征做的,具体数值跟文章中不一样,反而可以帮助理解文章。所以大家其实也可以小小修改一下代码,不一定要完全跟着教程做~ ^0^需要提前安装好的库 阅读全文
posted @ 2017-01-17 17:04 知识天地 阅读(84483) 评论(4) 推荐(3)
摘要: 之前学习机器学习和数据挖掘的时候,很多都是知道这些算法的设计机制,对数学推导和求解过程依然是一知半解,最近看了一些机器学习算法的求解和各种优化算法,也发现了这些算法设计和公式推导背后的数学精妙之处和随处可见的最优化的影子。还是决定从最优化理论开始补起,本文主要内容如下: 参考文献: —1. 《最优化 阅读全文
posted @ 2017-01-12 09:59 知识天地 阅读(7356) 评论(1) 推荐(0)
摘要: 感觉狼厂有些把机器学习和数据挖掘神话了,机器学习、数据挖掘的能力其实是有边界的。机器学习、数据挖掘永远是给大公司的业务锦上添花的东西,它可以帮助公司赚更多的钱,却不能帮助公司在与其他公司的竞争中取得领先优势,所以小公司招聘数据挖掘/机器学习不是为了装逼就是在自寻死路。可是相比Java和C++语言开发 阅读全文
posted @ 2017-01-12 09:58 知识天地 阅读(33690) 评论(0) 推荐(1)
摘要: Scala是一门多范式的编程语言,一种类似Java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优 阅读全文
posted @ 2017-01-12 09:56 知识天地 阅读(675) 评论(0) 推荐(0)
摘要: gbdt(又称Gradient Boosted Decision Tree/Grdient Boosted Regression Tree),是一种迭代的决策树算法,该算法由多个决策树组成。它最早见于yahoo,后被广泛应用在搜索排序、点击率预估上。 xgboost是陈天奇大牛新开发的Boostin 阅读全文
posted @ 2017-01-12 09:55 知识天地 阅读(1308) 评论(0) 推荐(1)
摘要: 正则化方法:防止过拟合,提高泛化能力 在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出 阅读全文
posted @ 2017-01-03 15:24 知识天地 阅读(802) 评论(0) 推荐(0)
摘要: 1.背景 关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT 地址和xgboost导读和实战 地址,希望对xgboost原理进行深入理解。 2.xgboost vs gbdt 说到xgboost,不得不说gbdt。了解gbdt可以看我这篇文章 地址,gb 阅读全文
posted @ 2016-12-30 20:11 知识天地 阅读(11759) 评论(0) 推荐(1)
摘要: GBDT算法是一种监督学习算法。监督学习算法需要解决如下两个问题: 1.损失函数尽可能的小,这样使得目标函数能够尽可能的符合样本 2.正则化函数对训练结果进行惩罚,避免过拟合,这样在预测的时候才能够准确。 GBDT算法需要最终学习到损失函数尽可能小并且有效的防止过拟合。 以样本随时间变化对某件事情发 阅读全文
posted @ 2016-12-30 19:10 知识天地 阅读(1112) 评论(0) 推荐(0)
摘要: c++ stl集合set介绍 c++ stl集合(Set)是一种包含已排序对象的关联容器。set/multiset会根据待定的排序准则,自动将元素排序。两者不同在于前者不允许元素重复,而后者允许。 1) 不能直接改变元素值,因为那样会打乱原本正确的顺序,要改变元素值必须先删除旧元素,则插入新元素 2 阅读全文
posted @ 2016-12-23 10:49 知识天地 阅读(3628) 评论(0) 推荐(0)
摘要: 1.关于set C++ STL 之所以得到广泛的赞誉,也被很多人使用,不只是提供了像vector, string, list等方便的容器,更重要的是STL封装了许多复杂的数据结构算法和大量常用数据结构操作。vector封装数组,list封装了链表,map和set封装了二叉树等,在封装这些数据结构的时 阅读全文
posted @ 2016-12-22 13:58 知识天地 阅读(817) 评论(0) 推荐(0)
上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 140 下一页