随笔分类 -  Spark

摘要:1、Application application(应用)其实就是用spark-submit提交的程序。一个application通常包含三部分:从数据源(比方说HDFS)取数据形成RDD,通过RDD的transformation和action进行计算,将结果输出到console或者外部存储。 2、 阅读全文
posted @ 2019-08-07 20:22 Solong1989 阅读(1729) 评论(0) 推荐(0)
摘要:Sprak参数有两种设置方式,一种是在代码中直接设置,一种是在提交任务时设置。代码中的优先级高于提交任务。 1、num-executors 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的 阅读全文
posted @ 2019-04-19 14:18 Solong1989 阅读(1158) 评论(0) 推荐(0)
摘要:用惯了python或者R语言的DataFrame格式,对spark的RDD编程模式一开始上手可能有点不习惯。本文简单梳理一下spark中常用的RDD操作。 1.初始化spark环境 2.读取本地文件 读取本地文件之后,一般都是转换成Row类型RDD,方便后续操作;同时RDD转成DataFrame前, 阅读全文
posted @ 2018-07-20 19:40 Solong1989 阅读(775) 评论(0) 推荐(0)