文章分类 - spark
摘要:大家好,我是威5! Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。 一. Spark作业基本运行原理 详细原理见上图。我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)
阅读全文
摘要:大家好,我是威5! 今天给大家分享大数据面试中关于spark会问到的开发方面调优的问题,仅供参考,希望对大家有所帮助。 原则一:避免创建重复的RDD 在开发过程中要注意:对于同一份数据,只应该创建一个RDD,不能创建多个RDD来代表同一份数据。否则,Spark作业会进行多次重复计算来创建多个代表相同
阅读全文
摘要:1.union操作是产生宽依赖还是窄依赖? 产生窄依赖 2.窄依赖父RDD的partition和子RDD的parition是不是都是一对一的关系? 不一定,除了一对一的窄依赖,还包含一对固定个数的窄依赖(就是对父RDD的依赖的Partition的数量不会随着RDD数量规模的改变而改变),比如join
阅读全文
摘要:1.map和flatmap的区别 map:对RDD每个元素转换,文件中的每一行数据返回一个数组对象。 flatMap:对RDD每个元素转换,然后再扁平化。 将所有的对象合并为一个对象,文件中的所有行数据仅返回一个数组对象,会抛弃值为null的值。 2.RDD的弹性表现在哪几点? 1)自动的进行内存和
阅读全文
摘要:1.描述spark的安装模式 答:1) 本地模式 2) standalone 模式 3) spark on yarn 模式 4) mesos模式 2.spark有哪些组件,每个组件的作用是什么 答:master:管理集群和节点,不参与计算。 worker:计算节点,进程本身不参与计算,向master
阅读全文

浙公网安备 33010602011771号