06 2021 档案

Spark参数
摘要:1.num-executors 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只 阅读全文

posted @ 2021-06-20 09:27 cfox 阅读(254) 评论(0) 推荐(0)

Spark SQL
摘要:简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 http://spark.apache.org/sql/ 为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapRed 阅读全文

posted @ 2021-06-19 20:08 cfox 阅读(170) 评论(0) 推荐(0)

导航