天丛云

2020年3月22日

摘要：在开发过程中大家都会遇到一个常见的问题，那就是数据倾斜。既然遇到问题，那么就应该想办法解决问题。解决问题首先要了解出现这个问题的原因。什么是数据倾斜，比如说：在hive中 map阶段早就跑完了，reduce阶段一直卡在99%。很大情况是发生了数据倾斜，整个任务在等某个节点跑完。在spark中大部阅读全文

posted @ 2020-03-22 22:34 天丛云阅读(4293) 评论(0) 推荐(0)

2020年3月15日

随机森林和adaboost的区别

摘要： 1.随机森林：在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。在Bagging策略的基础上进行修改后的一种算法。 2.随机森林的特点从样本集中用Bootstrap采样选出n个样本；从所有属性中随机选择K个属性，选择出最佳分割属性作为节点创建阅读全文

posted @ 2020-03-15 20:00 天丛云阅读(464) 评论(0) 推荐(0)

2020年3月7日

spark调优

摘要： 1.分配更多的资源它是性能优化调优的王道，就是增加和分配更多的资源，这对于性能和速度上的提升是显而易见的，基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，就是要来调节优的资源配置；在这个基础之上，如果说你的spar 阅读全文

posted @ 2020-03-07 18:26 天丛云阅读(181) 评论(0) 推荐(0)

2020年2月29日

spark

摘要： 1、spark基础，什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其阅读全文

posted @ 2020-02-29 11:17 天丛云阅读(639) 评论(0) 推荐(0)

公告