随笔分类 -  Spark

Spark
摘要:Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuf 阅读全文
posted @ 2022-03-27 15:34 大数据技术派 阅读(482) 评论(0) 推荐(0)
摘要:Spark SQL概述 1、什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。 在内部,Sp 阅读全文
posted @ 2021-11-23 00:27 大数据技术派 阅读(1193) 评论(0) 推荐(1)
摘要:1、Shuffle优化配置 -spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才会溢写 阅读全文
posted @ 2021-11-19 11:01 大数据技术派 阅读(428) 评论(0) 推荐(0)
摘要:Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuf 阅读全文
posted @ 2021-11-18 23:48 大数据技术派 阅读(423) 评论(0) 推荐(0)
摘要:Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuf 阅读全文
posted @ 2021-11-16 23:09 大数据技术派 阅读(300) 评论(0) 推荐(0)
摘要:Spark面试题系列 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuf 阅读全文
posted @ 2021-11-15 22:01 大数据技术派 阅读(519) 评论(0) 推荐(0)
摘要:Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuf 阅读全文
posted @ 2021-11-07 20:17 大数据技术派 阅读(526) 评论(0) 推荐(0)
摘要:1、为什么要进行序列化序列化? 可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。 2、Yarn中的container是由谁负责销毁的,在Hadoop Mapreduce中container可以复用么? ApplicationMaster负责销毁,在 阅读全文
posted @ 2021-10-30 10:31 大数据技术派 阅读(391) 评论(0) 推荐(0)
摘要:首发于我的个人博客:Spark面试题(二) 1、Spark有哪两种算子? Transformation(转化)算子和Action(执行)算子。 2、Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子? 在我们的开发过程中,能避免则尽可能避免使用reduceByKey、join、distin 阅读全文
posted @ 2021-10-28 22:05 大数据技术派 阅读(422) 评论(0) 推荐(0)
摘要:Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuf 阅读全文
posted @ 2021-10-26 23:39 大数据技术派 阅读(1383) 评论(0) 推荐(0)
摘要:经常有同学问我,基于Hadoop生态圈的大数据组件有很多,怎么学的过来呢,毕竟精力有限,我们需要有侧重点,我觉得下面这几个组件至关重要,是基础组件,大部分人都需要会的,其它组件可以用的时候再去查查资料学习。 hadoop Hbase Hive Spark Flink Kafka Hadoop 是大数 阅读全文
posted @ 2021-05-25 21:55 大数据技术派 阅读(1152) 评论(1) 推荐(2)
摘要:Spark内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理。 一、Spark核心组件回顾 Driver Spark驱动器节点,用于执行Spark任务中的m 阅读全文
posted @ 2021-01-14 22:42 大数据技术派 阅读(391) 评论(0) 推荐(0)
摘要:SparkStreaming实时消费kafka数据,结合redis实时统计pv,uv,结果保存到mysql。 阅读全文
posted @ 2019-09-13 22:43 大数据技术派 阅读(4363) 评论(0) 推荐(1)