摘要:
译注:文内提供的代码和运行结果有一定差异,可以从这里下载完整代码对照参考。另外,我自己跟着教程做的时候,发现我的库无法解析字符串类型的特征,所以只用其中一部分特征做的,具体数值跟文章中不一样,反而可以帮助理解文章。所以大家其实也可以小小修改一下代码,不一定要完全跟着教程做~ ^0^需要提前安装好的库 阅读全文
posted @ 2017-01-17 17:04
知识天地
阅读(84483)
评论(4)
推荐(3)
摘要:
之前学习机器学习和数据挖掘的时候,很多都是知道这些算法的设计机制,对数学推导和求解过程依然是一知半解,最近看了一些机器学习算法的求解和各种优化算法,也发现了这些算法设计和公式推导背后的数学精妙之处和随处可见的最优化的影子。还是决定从最优化理论开始补起,本文主要内容如下: 参考文献: —1. 《最优化 阅读全文
posted @ 2017-01-12 09:59
知识天地
阅读(7356)
评论(1)
推荐(0)
摘要:
感觉狼厂有些把机器学习和数据挖掘神话了,机器学习、数据挖掘的能力其实是有边界的。机器学习、数据挖掘永远是给大公司的业务锦上添花的东西,它可以帮助公司赚更多的钱,却不能帮助公司在与其他公司的竞争中取得领先优势,所以小公司招聘数据挖掘/机器学习不是为了装逼就是在自寻死路。可是相比Java和C++语言开发 阅读全文
posted @ 2017-01-12 09:58
知识天地
阅读(33690)
评论(0)
推荐(1)
摘要:
Scala是一门多范式的编程语言,一种类似Java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优 阅读全文
posted @ 2017-01-12 09:56
知识天地
阅读(675)
评论(0)
推荐(0)
摘要:
gbdt(又称Gradient Boosted Decision Tree/Grdient Boosted Regression Tree),是一种迭代的决策树算法,该算法由多个决策树组成。它最早见于yahoo,后被广泛应用在搜索排序、点击率预估上。 xgboost是陈天奇大牛新开发的Boostin 阅读全文
posted @ 2017-01-12 09:55
知识天地
阅读(1308)
评论(0)
推荐(1)
摘要:
正则化方法:防止过拟合,提高泛化能力 在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出 阅读全文
posted @ 2017-01-03 15:24
知识天地
阅读(802)
评论(0)
推荐(0)
浙公网安备 33010602011771号