会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
天丛云
博客园
首页
新随笔
联系
订阅
管理
2020年3月22日
数据倾斜的原因以及解决方案
摘要: 在开发过程中大家都会遇到一个常见的问题,那就是数据倾斜。既然遇到问题,那么就应该想办法解决问题。解决问题首先要了解出现这个问题的原因。 什么是数据倾斜,比如说:在hive中 map阶段早就跑完了,reduce阶段一直卡在99%。很大情况是发生了数据倾斜,整个任务在等某个节点跑完。 在spark中大部
阅读全文
posted @ 2020-03-22 22:34 天丛云
阅读(4287)
评论(0)
推荐(0)
2020年3月15日
随机森林和adaboost的区别
摘要: 1.随机森林: 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。在Bagging策略的基础上进行修改后的一种算法。 2.随机森林的特点 从样本集中用Bootstrap采样选出n个样本; 从所有属性中随机选择K个属性,选择出最佳分割属性作为节点创建
阅读全文
posted @ 2020-03-15 20:00 天丛云
阅读(453)
评论(0)
推荐(0)
2020年3月7日
spark调优
摘要: 1.分配更多的资源 它是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的, 基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调 优的时候, 首先第一步,就是要来调节优的资源配置;在这个基础之上,如果说你的spar
阅读全文
posted @ 2020-03-07 18:26 天丛云
阅读(179)
评论(0)
推荐(0)
2020年2月29日
spark
摘要: 1、spark基础,什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个 子项目的集合,其
阅读全文
posted @ 2020-02-29 11:17 天丛云
阅读(628)
评论(0)
推荐(0)
公告