Spark - 随笔分类 - 勤奋的园

spark sql优化

摘要：1、内存优化 1.1、RDD RDD默认cache仅使用内存可以看到使用默认cache时，四个分区只在内存中缓存了3个分区，4.4G的数据使用kryo序列化+MEMORY_ONLY_SER 可以看到缓存了四个分区的全部数据，且只缓存了1445.8M 所以这两种缓存方式如何选择，官网建议也就是说阅读全文

posted @ 2020-12-06 17:50 勤奋的园阅读(2245) 评论(0) 推荐(0)

spark提交命令 spark-submit 的参数 executor-memory、executor-cores、num-executors、spark.default.parallelism分析

摘要：转载：https://blog.csdn.net/zimiao552147572/article/details/96482120 nohup spark-submit --master yarn --deploy-mode cluster --jars /xx/xx/xx/xx.jar --cla 阅读全文

posted @ 2020-11-03 14:16 勤奋的园阅读(1560) 评论(0) 推荐(0)

SparkStreaming

摘要：一、Spark Streaming概述 1.1 Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的阅读全文

posted @ 2020-10-25 23:07 勤奋的园阅读(498) 评论(0) 推荐(0)

SparkSQL

摘要：一、Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集阅读全文

posted @ 2020-10-25 17:36 勤奋的园阅读(274) 评论(0) 推荐(0)

SparkCore2

摘要：二、RDD编程 2.5 RDD中的函数传递在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要主要的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。下面我们看几个例子： 2.5.1 传递一个方法 1．创建一个阅读全文

posted @ 2020-10-25 16:09 勤奋的园阅读(97) 评论(0) 推荐(0)

SparkCore

摘要：一、RDD概述 1.1 什么是RDD RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。 1.2 RDD的属性 1) 一组分区（Partition），即数据集阅读全文

posted @ 2020-10-19 22:14 勤奋的园阅读(254) 评论(0) 推荐(0)

Spark基础

摘要：一、Spark概述 1.1 什么是Spark 1.2 Spark内置模块 Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD 阅读全文

posted @ 2020-10-18 15:58 勤奋的园阅读(143) 评论(0) 推荐(0)

Spark常见问题汇总

摘要：原文地址：https://my.oschina.net/tearsky/blog/629201 摘要： 1、Operation category READ is not supported in state standby 2、配置spark.deploy.recoveryMode选项为ZOOKEE 阅读全文

posted @ 2020-08-20 17:42 勤奋的园阅读(571) 评论(0) 推荐(0)

Spark RDD的默认分区数：（spark 2.1.0）

摘要：本文基于Spark 2.1.0版本新手首先要明白几个配置： spark.default.parallelism：（默认的并发数）如果配置文件spark-default.conf中没有显示的配置，则按照如下规则取值：本地模式（不会启动executor，由SparkSubmit进程生成指定数量的线阅读全文

posted @ 2020-08-20 17:38 勤奋的园阅读(566) 评论(0) 推荐(0)

勤奋的园

随笔分类 - Spark

公告