摘要: 在开发过程中大家都会遇到一个常见的问题,那就是数据倾斜。既然遇到问题,那么就应该想办法解决问题。解决问题首先要了解出现这个问题的原因。 什么是数据倾斜,比如说:在hive中 map阶段早就跑完了,reduce阶段一直卡在99%。很大情况是发生了数据倾斜,整个任务在等某个节点跑完。 在spark中大部 阅读全文
posted @ 2020-03-22 22:34 天丛云 阅读(4287) 评论(0) 推荐(0)
摘要: 1.随机森林: 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。在Bagging策略的基础上进行修改后的一种算法。 2.随机森林的特点 从样本集中用Bootstrap采样选出n个样本; 从所有属性中随机选择K个属性,选择出最佳分割属性作为节点创建 阅读全文
posted @ 2020-03-15 20:00 天丛云 阅读(453) 评论(0) 推荐(0)
摘要: 1.分配更多的资源 它是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的, 基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调 优的时候, 首先第一步,就是要来调节优的资源配置;在这个基础之上,如果说你的spar 阅读全文
posted @ 2020-03-07 18:26 天丛云 阅读(179) 评论(0) 推荐(0)
摘要: 1、spark基础,什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个 子项目的集合,其 阅读全文
posted @ 2020-02-29 11:17 天丛云 阅读(628) 评论(0) 推荐(0)