• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
有所奢望,那就去努力呗
记录下遇到的一些问题
博客园 首页 新随笔 联系 订阅 订阅 管理

2019年9月25日

3-JavaSe-1-stream-1-流库特征
摘要: 1.parallelStream可以让流库以并行方式来执行过滤和计数。 2.使用流,可以说明想要完成什么任务,而不是说明如何去使用它。 3.流不会改变,总会新建(中间流转换操作) 阅读全文
posted @ 2019-09-25 23:18 yunlk 阅读(93) 评论(0) 推荐(0)
 
2-Spark-1-性能调优-数据倾斜2-Join/Broadcast的使用场景
摘要: 技术点:RDD的join操作可能产生数据倾斜,当两个RDD不是非常大的情况下,可以通过Broadcast的方式在reduce端进行类似(Join)的操作: broadcast是进程级别的,只读的。 broadcast 可以适用于小表的广播,通过广播到对应节点的内存中(受blockManager的管理 阅读全文
posted @ 2019-09-25 23:03 yunlk 阅读(478) 评论(0) 推荐(0)
 
1-Spark-1-性能调优-数据倾斜1-特征/常见原因/后果/常见调优方案
摘要: 数据倾斜特征:个别Task处理大部分数据 后果:1.OOM;2.速度变慢,甚至变得慢的不可接受 常见原因: 数据倾斜的定位: 1.WebUI(查看Task运行的数据量的大小)。 2.Log,查看log中哪一行出现OOM,查找具体哪个Stage,进而确定哪一个shuffle产生了数据倾斜。 3.查看代 阅读全文
posted @ 2019-09-25 13:12 yunlk 阅读(208) 评论(0) 推荐(0)
 
 

公告


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3