随笔分类 - Spark
摘要:1、Application application(应用)其实就是用spark-submit提交的程序。一个application通常包含三部分:从数据源(比方说HDFS)取数据形成RDD,通过RDD的transformation和action进行计算,将结果输出到console或者外部存储。 2、
阅读全文
摘要:Sprak参数有两种设置方式,一种是在代码中直接设置,一种是在提交任务时设置。代码中的优先级高于提交任务。 1、num-executors 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的
阅读全文
摘要:用惯了python或者R语言的DataFrame格式,对spark的RDD编程模式一开始上手可能有点不习惯。本文简单梳理一下spark中常用的RDD操作。 1.初始化spark环境 2.读取本地文件 读取本地文件之后,一般都是转换成Row类型RDD,方便后续操作;同时RDD转成DataFrame前,
阅读全文

浙公网安备 33010602011771号