随笔分类 -  spark

摘要:总结一下spark的调优方案--性能调优: 一、调节并行度 1、性能上的调优主要注重一下几点: Excutor的数量 每个Excutor所分配的CPU的数量 每个Excutor所能分配的内存量 Driver端分配的内存数量 2、如何分配资源 在生产环境中,提交spark作业的时候,使用的是spark 阅读全文
posted @ 2018-11-09 20:22 董秀才 阅读(1296) 评论(0) 推荐(0)
摘要:spark是基于scala写的,虽然spark有java API,或者python API,但是scala算是正统吧。 而且scala的语法书写起来十分的爽,不想java那样笨重,python不太了解,不给予评价。 接下来看下spark版的wordcount,相对与hadoop的mapreduce要 阅读全文
posted @ 2018-11-05 19:58 董秀才 阅读(352) 评论(0) 推荐(0)