随笔分类 - spark
摘要:spark任务报错:KryoException: Buffer overflow. Available: xxx, required: xxx 可以适当增加spark.kryoserializer.buffer.max 的值, 默认是128m,可以尝试给到256m或512m
阅读全文
摘要:sparksql的3种join实现 1、Broadcast Join (小表对大表) 在数据库的常见模型中(比如星型模型或者雪花模型),表一般分为两种:事实表和维度表。 维度表一般指固定的、变动较少的表,例如联系人、物品种类等,一般数据有限。 事实表一般记录流水,比如销售清单等,通常随着时间的增长不
阅读全文
摘要:一、java 1、java有哪些classloader? 启动类加载器、扩展类加载器、应用程序类加载器(系统类加载器)、用户自定义类加载器 2、java对象引用有哪些? 强引用 软引用 弱引用 虚引用 3、AQS? AQS定义了一套多线程访问共享资源的同步器框架,维护一个共享资源状态volatile
阅读全文
摘要:https://blog.csdn.net/zhuiqiuuuu/article/details/86539385 ps:这篇文章写得比较好,解答了之前的困惑,需要重点看 个人疑惑:实际分配的内存不会算driver-memory的?
阅读全文
摘要:理论知识介绍:(个人理解使用广播变量是优化项之一) https://blog.csdn.net/Android_xue/article/details/79780463/ 一、为什么要使用共享变量 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外
阅读全文
摘要:https://blog.csdn.net/zhanglh046/article/details/78360762
阅读全文
摘要:SparkSession: SparkSession实质上是SQLContext和HiveContext的组合(未来可能还会加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。 SparkSession
阅读全文
摘要:三者的共性1、RDD、DataFrame、Dataset 全都是 spark 平台下的分布式弹性数据集,为处理超大型数据提供便利 2、三者都有惰性机制,在进行创建、转换,如 map 方法时,不会立即执行,只有在遇到 Action 如 foreach 时,三者才会开始遍历运算。 3、三者都会根据 sp
阅读全文
摘要:https://blog.csdn.net/wyz0516071128/article/details/81219342 尽管二者在server端采用了一致的并发模型,但在任务级别(特指 Spark任务和MapReduce任务)上却采用了不同的并行机制:Hadoop MapReduce采用了多进程模
阅读全文
摘要:根据个人面试经历总结: 1、简单说一下hadoop和spark的shuffle相同和差异? 联系: Apache Spark 的 Shuffle 过程与 Apache Hadoop 的 Shuffle 过程有着诸多类似,一些概念可直接套用,例如,Shuffle 过程中,提供数据的一端,被称作 Map
阅读全文
摘要:1、RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。 通俗点来讲,可以将 RDD 理解为一个分布式对象集合,本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区,每个分区就是一个数据集片段。一
阅读全文
摘要:https://www.jianshu.com/p/736a4e628f0f 1.1 窄依赖 窄依赖是指1个父RDD分区对应1个子RDD的分区。换句话说,一个父RDD的分区对应于一个子RDD的分区,或者多个父RDD的分区对应于一个子RDD的分区。所以窄依赖又可以分为两种情况: 1个子RDD的分区对应
阅读全文
摘要:spark_sql_shuffle_partitions设置executor的partitions个数,注意这个参数只对SparkSQL有用 但是有的文章说这是并行度,一个partitions相当于一个task?
阅读全文
摘要:sql语句方式 flightData2015.createOrReplaceTempView("flightData2015") spark.sql("select DEST_COUNTRY_NAME ,sum(count) as destination_total" + " from flight
阅读全文
摘要:参考https://www.cnblogs.com/flymin/p/11345646.html 小文件:存储于HDFS中小文件,即指文件的大小远小于HDFS上块(dfs.block.size)大小的文件。
阅读全文
摘要:yarn模式又分为yarn cluster模式和yarn client模式: yarn cluster: 这个就是生产环境常用的模式,所有的资源调度和计算都在集群环境上运行。 yarn client: 这个是说Spark Driver和ApplicationMaster进程均在本机运行,而计算任务在
阅读全文
摘要:num-executors参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你
阅读全文

浙公网安备 33010602011771号