随笔分类 -  机器学习

上一页 1 ··· 3 4 5 6 7
摘要:gbdt(又称Gradient Boosted Decision Tree/Grdient Boosted Regression Tree),是一种迭代的决策树算法,该算法由多个决策树组成。它最早见于yahoo,后被广泛应用在搜索排序、点击率预估上。 xgboost是陈天奇大牛新开发的Boostin 阅读全文
posted @ 2016-10-10 18:04 知识天地 阅读(16204) 评论(0) 推荐(0)
摘要:在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做 阅读全文
posted @ 2016-06-05 10:25 知识天地 阅读(358) 评论(0) 推荐(0)
摘要:很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper 阅读全文
posted @ 2016-05-16 15:52 知识天地 阅读(975) 评论(0) 推荐(0)
摘要:1.多路径输入 1)FileInputFormat.addInputPath 多次调用加载不同路径 FileInputFormat.addInputPath(job, new Path("hdfs://RS5-112:9000/cs/path1"));FileInputFormat.addInput 阅读全文
posted @ 2016-05-03 16:20 知识天地 阅读(343) 评论(0) 推荐(0)
摘要:EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。 下面主要介绍EM的整个推导过程。 1. Jensen不等式 回顾优化理论中的一些概念。设 阅读全文
posted @ 2016-04-28 16:26 知识天地 阅读(458) 评论(0) 推荐(0)
摘要:如今,GBDT被广泛运用于互联网行业,他的原理与优点这里就不细说了,网上google一大把。但是,我自认为自己不是一个理论牛人,对GBDT的理论理解之后也做不到从理论举一反三得到更深入的结果。但是学习一个算法,务必要深入细致才能领会到这个算法的精髓。因此,在了解了足够的GBDT理论之后,就需要通过去 阅读全文
posted @ 2016-04-28 16:21 知识天地 阅读(356) 评论(0) 推荐(0)
摘要:版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com 前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快 阅读全文
posted @ 2016-04-28 15:32 知识天地 阅读(256) 评论(0) 推荐(0)
摘要:在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做 阅读全文
posted @ 2016-04-28 15:31 知识天地 阅读(427) 评论(0) 推荐(0)
摘要:转自:http://cos.name/2015/03/xgboost/ 本文作者:何通,SupStat Inc(总部在纽约,中国分部为北京数博思达信息科技有限公司)数据科学家,加拿大Simon Fraser University计算机学院研究生,研究兴趣为数据挖掘和生物信息学。 主页:https:/ 阅读全文
posted @ 2016-04-22 10:54 知识天地 阅读(3782) 评论(0) 推荐(0)
摘要:Feature engineering is an informal topic, but one that is absolutely known and agreed to be key to success in applied machine learning. In creating th 阅读全文
posted @ 2016-04-13 09:57 知识天地 阅读(390) 评论(0) 推荐(0)
摘要:Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因。它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。2003和2004年,两个来自Google的观点使H 阅读全文
posted @ 2016-04-01 16:43 知识天地 阅读(1406) 评论(0) 推荐(0)
摘要:【更新 2015-03-01】在LinkedIn的同事王冠和朱平的协助下,在湾区的分布式机器学习系列分享结束了。感谢LinkedIn Events团队提供场地、器材和其他支持。一起参与的朋友们组成了一个微信群,继续保持沟通和交流。 内容 总结 互联网服务超越人工服务 集体智能超越人工智能 大数据是行 阅读全文
posted @ 2016-04-01 15:58 知识天地 阅读(438) 评论(0) 推荐(0)

上一页 1 ··· 3 4 5 6 7