2021 年 2月 1 日随笔档案 - ExplorerMan

Spark Streaming简介及原理

摘要：简介： SparkStreaming是一套框架。 SparkStreaming是Spark核心API的一个扩展，可以实现高吞吐量的，具备容错机制的实时流数据处理。支持多种数据源获取数据： Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据，进行处理后，处理结阅读全文

posted @ 2021-02-01 19:07 ExplorerMan 阅读(204) 评论(0) 推荐(0)

Spark 以及 spark streaming 核心原理及实践

摘要：阅读目录 Spark 特点 Spark的适用场景 Spark成功案例导语 spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统，因效率高，易用以及通用性越来越得到大家的青睐，我自己最近半年在接触spark以及spark streaming之后，对spark技术的使用有一些自己的经验阅读全文

posted @ 2021-02-01 19:06 ExplorerMan 阅读(336) 评论(0) 推荐(0)

Spark executor中task的数量与最大并发数

摘要：每个task处理一个partition，一个文件的大小/128M就是task的数量 Task的最大并发数当task被提交到executor之后，会根据executor可用的cpu核数，决定一个executor中最多同时运行多少个task。默认情况下一个task对应cpu的一个核。如果一个exec 阅读全文

posted @ 2021-02-01 18:54 ExplorerMan 阅读(3312) 评论(0) 推荐(0)

如何在Spark集群的work节点上启动多个Executor?

摘要：如何在Spark集群的work节点上启动多个Executor? 默认情况下，Spark集群下的worker，只会启动一个Executor，只运行了一个 CoarseGrainedExecutorBackend 进程。Worker 通过持有 ExecutorRunner 对象来控制 CoarseGra 阅读全文

posted @ 2021-02-01 18:41 ExplorerMan 阅读(1001) 评论(0) 推荐(0)

Spark 外部变量和BroadCast变量的区别

摘要： spark里面算子里面使用外部变量和BroadCast变量的区别： 1、如果在算子里面使用外部变量，spark会将外部变量复制多个副本，通过网络传输到每一个task里面去(也就是说，此时的外部变量是task级别的) 2、BroadCast变量，使用spark的广播功能进行广播，广播之后保障每个exe 阅读全文

posted @ 2021-02-01 18:32 ExplorerMan 阅读(204) 评论(0) 推荐(0)

Spark 广播变量（broadcast）更新方法

摘要： Spark 广播变量（broadcast）更新方法更新方法spark 广播变量可以通过unpersist方法删除，然后重新广播 1 2 3 4 5 6 7 val map = sc.textFile("/test.txt").map(line => { val arr = line.split(", 阅读全文

posted @ 2021-02-01 17:54 ExplorerMan 阅读(337) 评论(0) 推荐(0)

fold()操作和reduce()操作的区别

摘要： reduce()——规约操作，包含reduceLeft()和reduceRight()两种操作。 fold()——折叠操作，包含foldLeft()和foldRight()两种操作。两者功能相似，不同之处在于： fold()操作需要从一个初始值开始，并以该值作为上下文，处理集合中的每个元素。 re 阅读全文

posted @ 2021-02-01 17:26 ExplorerMan 阅读(360) 评论(0) 推荐(0)

flatmap和MapPartition和Map的区别

摘要：背景 map和flatmap，从字面意思或者官网介绍，可能会给一些人在理解上造成困扰【包括本人】，所以今天专门花时间来分析，现整理如下：首先做一下名词解释我的理解 map：map方法返回的是一个object，map将流中的当前元素替换为此返回值； flatMap：flatMap方法返回的是一个s 阅读全文

posted @ 2021-02-01 17:12 ExplorerMan 阅读(466) 评论(0) 推荐(0)

pyspark教程

摘要： Apache Spark是用 Scala编程语言编写的。为了用Spark支持Python，Apache Spark社区发布了一个工具PySpark。使用PySpark，您也可以使用Python编程语言中的 RDD 。正是由于一个名为 Py4j 的库，他们才能实现这一目标。它将创建一个目录 spa 阅读全文

posted @ 2021-02-01 15:22 ExplorerMan 阅读(1455) 评论(0) 推荐(0)

Spark 中的join方式(pySpark)

摘要： spark基础知识请参考spark官网：http://spark.apache.org/docs/1.2.1/quick-start.html 无论是mapreduce还是spark ,分布式框架的性能优化方向大致分为：负载均衡、网络传输和磁盘I/O 这三块。而spark是基于内存的计算框架,因此在阅读全文

posted @ 2021-02-01 11:47 ExplorerMan 阅读(863) 评论(0) 推荐(0)

Spark性能优化指南——高级篇

摘要：前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作阅读全文

posted @ 2021-02-01 11:08 ExplorerMan 阅读(249) 评论(0) 推荐(0)

Spark性能优化指南——基础篇

摘要：详细原理见上图。我们使用spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。根据你使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置的参数，占有一定数量的内存和阅读全文

posted @ 2021-02-01 11:06 ExplorerMan 阅读(143) 评论(0) 推荐(0)

pyspark-combineByKey详解

摘要：最近学习Spark，我主要使用pyspark api进行编程，网络上中文的解释不是很多，api官方文档也不是很容易明白，我结合自己的理解记录下来，方便别人参考，也方便自己回顾吧本文介绍的是pyspark.RDD.combineByKey combineByKey(createCombiner, 阅读全文

posted @ 2021-02-01 10:54 ExplorerMan 阅读(415) 评论(0) 推荐(0)

ExplorerMan