spark - 随笔分类 - 再见傅里叶

spark常见问题

摘要：spark任务报错：KryoException: Buffer overflow. Available: xxx, required: xxx 可以适当增加spark.kryoserializer.buffer.max 的值, 默认是128m，可以尝试给到256m或512m 阅读全文

posted @ 2023-06-29 11:22 再见傅里叶阅读(112) 评论(0) 推荐(0)

sparksql的join有哪些及实现原理

摘要：sparksql的3种join实现 1、Broadcast Join （小表对大表）在数据库的常见模型中（比如星型模型或者雪花模型），表一般分为两种：事实表和维度表。维度表一般指固定的、变动较少的表，例如联系人、物品种类等，一般数据有限。事实表一般记录流水，比如销售清单等，通常随着时间的增长不阅读全文

posted @ 2022-12-09 10:07 再见傅里叶阅读(997) 评论(0) 推荐(0)

20210419面试题

摘要：一、java 1、java有哪些classloader？启动类加载器、扩展类加载器、应用程序类加载器（系统类加载器）、用户自定义类加载器 2、java对象引用有哪些？强引用软引用弱引用虚引用 3、AQS？ AQS定义了一套多线程访问共享资源的同步器框架，维护一个共享资源状态volatile 阅读全文

posted @ 2021-04-19 16:14 再见傅里叶阅读(71) 评论(0) 推荐(0)

Spark On Yarn 中Executor 内存分配的机制

摘要：https://blog.csdn.net/zhuiqiuuuu/article/details/86539385 ps：这篇文章写得比较好，解答了之前的困惑，需要重点看个人疑惑：实际分配的内存不会算driver-memory的？阅读全文

posted @ 2020-04-22 17:38 再见傅里叶阅读(382) 评论(0) 推荐(0)

spark广播变量与累加器

摘要：理论知识介绍:(个人理解使用广播变量是优化项之一) https://blog.csdn.net/Android_xue/article/details/79780463/ 一、为什么要使用共享变量 Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外阅读全文

posted @ 2020-04-07 09:12 再见傅里叶阅读(179) 评论(0) 推荐(0)

spark基础之shuffle机制和原理分析

摘要：https://blog.csdn.net/zhanglh046/article/details/78360762 阅读全文

posted @ 2020-03-31 10:24 再见傅里叶阅读(177) 评论(0) 推荐(0)

SparkSession 与SparkContext

摘要：SparkSession： SparkSession实质上是SQLContext和HiveContext的组合（未来可能还会加上StreamingContext），所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。 SparkSession 阅读全文

posted @ 2020-03-27 16:31 再见傅里叶阅读(1813) 评论(0) 推荐(0)

Spark中RDD、DataSet、DataFrame的联系与区别

摘要：三者的共性1、RDD、DataFrame、Dataset 全都是 spark 平台下的分布式弹性数据集，为处理超大型数据提供便利 2、三者都有惰性机制，在进行创建、转换，如 map 方法时，不会立即执行，只有在遇到 Action 如 foreach 时，三者才会开始遍历运算。 3、三者都会根据 sp 阅读全文

posted @ 2020-03-25 15:37 再见傅里叶阅读(1092) 评论(0) 推荐(0)

mapreduce与spark区别

摘要：https://blog.csdn.net/wyz0516071128/article/details/81219342 尽管二者在server端采用了一致的并发模型，但在任务级别（特指 Spark任务和MapReduce任务）上却采用了不同的并行机制：Hadoop MapReduce采用了多进程模阅读全文

posted @ 2020-03-17 08:32 再见傅里叶阅读(376) 评论(0) 推荐(0)

Spark面试常见问题

摘要：根据个人面试经历总结： 1、简单说一下hadoop和spark的shuffle相同和差异? 联系： Apache Spark 的 Shuffle 过程与 Apache Hadoop 的 Shuffle 过程有着诸多类似，一些概念可直接套用，例如，Shuffle 过程中，提供数据的一端，被称作 Map 阅读全文

posted @ 2020-03-16 20:43 再见傅里叶阅读(1229) 评论(1) 推荐(0)

Spark RDD介绍

摘要：1、RDD 是 Spark 提供的最重要的抽象概念，它是一种有容错机制的特殊数据集合，可以分布在集群的结点上，以函数式操作集合的方式进行各种并行操作。通俗点来讲，可以将 RDD 理解为一个分布式对象集合，本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区，每个分区就是一个数据集片段。一阅读全文

posted @ 2020-03-10 13:48 再见傅里叶阅读(259) 评论(0) 推荐(0)

spark中宽依赖和窄依赖

摘要：https://www.jianshu.com/p/736a4e628f0f 1.1 窄依赖窄依赖是指1个父RDD分区对应1个子RDD的分区。换句话说，一个父RDD的分区对应于一个子RDD的分区，或者多个父RDD的分区对应于一个子RDD的分区。所以窄依赖又可以分为两种情况： 1个子RDD的分区对应阅读全文

posted @ 2020-03-09 15:06 再见傅里叶阅读(2388) 评论(0) 推荐(0)

Spark sql优化

摘要：spark_sql_shuffle_partitions设置executor的partitions个数，注意这个参数只对SparkSQL有用但是有的文章说这是并行度，一个partitions相当于一个task？阅读全文

posted @ 2020-03-07 22:00 再见傅里叶阅读(234) 评论(0) 推荐(0)

Spark SQL查看物理执行计划,explain

摘要：sql语句方式 flightData2015.createOrReplaceTempView("flightData2015") spark.sql("select DEST_COUNTRY_NAME ,sum(count) as destination_total" + " from flight 阅读全文

posted @ 2020-03-07 21:51 再见傅里叶阅读(3105) 评论(0) 推荐(0)

spark小文件过多如何解决

摘要：参考https://www.cnblogs.com/flymin/p/11345646.html 小文件：存储于HDFS中小文件，即指文件的大小远小于HDFS上块（dfs.block.size）大小的文件。阅读全文

posted @ 2020-03-07 21:45 再见傅里叶阅读(1649) 评论(0) 推荐(0)

spark部署模式

摘要：yarn模式又分为yarn cluster模式和yarn client模式： yarn cluster: 这个就是生产环境常用的模式，所有的资源调度和计算都在集群环境上运行。 yarn client: 这个是说Spark Driver和ApplicationMaster进程均在本机运行，而计算任务在阅读全文

posted @ 2019-11-19 10:38 再见傅里叶阅读(402) 评论(0) 推荐(0)

spark运行参数设置

摘要：num-executors参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上，启动相应数量的Executor进程。这个参数非常之重要，如果不设置的话，默认只会给你阅读全文

posted @ 2019-11-19 10:22 再见傅里叶阅读(1309) 评论(0) 推荐(0)

再见傅里叶

随笔分类 - spark

公告