2021年2月1日

Spark Streaming简介及原理

摘要: 简介: SparkStreaming是一套框架。 SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。 支持多种数据源获取数据: Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后,处理结 阅读全文

posted @ 2021-02-01 19:07 ExplorerMan 阅读(204) 评论(0) 推荐(0)

Spark 以及 spark streaming 核心原理及实践

摘要: 阅读目录 Spark 特点 Spark的适用场景 Spark成功案例 导语 spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验 阅读全文

posted @ 2021-02-01 19:06 ExplorerMan 阅读(336) 评论(0) 推荐(0)

Spark executor中task的数量与最大并发数

摘要: 每个task处理一个partition,一个文件的大小/128M就是task的数量 Task的最大并发数 当task被提交到executor之后,会根据executor可用的cpu核数,决定一个executor中最多同时运行多少个task。 默认情况下一个task对应cpu的一个核。如果一个exec 阅读全文

posted @ 2021-02-01 18:54 ExplorerMan 阅读(3312) 评论(0) 推荐(0)

如何在Spark集群的work节点上启动多个Executor?

摘要: 如何在Spark集群的work节点上启动多个Executor? 默认情况下,Spark集群下的worker,只会启动一个Executor,只运行了一个 CoarseGrainedExecutorBackend 进程。Worker 通过持有 ExecutorRunner 对象来控制 CoarseGra 阅读全文

posted @ 2021-02-01 18:41 ExplorerMan 阅读(1001) 评论(0) 推荐(0)

Spark 外部变量和BroadCast变量的区别

摘要: spark里面算子里面使用外部变量和BroadCast变量的区别: 1、如果在算子里面使用外部变量,spark会将外部变量复制多个副本,通过网络传输到每一个task里面去(也就是说,此时的外部变量是task级别的) 2、BroadCast变量,使用spark的广播功能进行广播,广播之后保障每个exe 阅读全文

posted @ 2021-02-01 18:32 ExplorerMan 阅读(204) 评论(0) 推荐(0)

Spark 广播变量(broadcast)更新方法

摘要: Spark 广播变量(broadcast)更新方法更新方法spark 广播变量可以通过unpersist方法删除,然后重新广播 1 2 3 4 5 6 7 val map = sc.textFile("/test.txt").map(line => { val arr = line.split(", 阅读全文

posted @ 2021-02-01 17:54 ExplorerMan 阅读(337) 评论(0) 推荐(0)

fold()操作和reduce()操作的区别

摘要: reduce()——规约操作,包含reduceLeft()和reduceRight()两种操作。 fold()——折叠操作,包含foldLeft()和foldRight()两种操作。 两者功能相似,不同之处在于: fold()操作需要从一个初始值开始,并以该值作为上下文,处理集合中的每个元素。 re 阅读全文

posted @ 2021-02-01 17:26 ExplorerMan 阅读(360) 评论(0) 推荐(0)

flatmap和MapPartition和Map的区别

摘要: 背景 map和flatmap,从字面意思或者官网介绍,可能会给一些人在理解上造成困扰【包括本人】,所以今天专门花时间来分析,现整理如下: 首先做一下名词解释 我的理解 map:map方法返回的是一个object,map将流中的当前元素替换为此返回值; flatMap:flatMap方法返回的是一个s 阅读全文

posted @ 2021-02-01 17:12 ExplorerMan 阅读(466) 评论(0) 推荐(0)

pyspark教程

摘要: Apache Spark是用 Scala编程语言 编写的。为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。使用PySpark,您也可以使用Python编程语言中的 RDD 。正是由于一个名为 Py4j 的库,他们才能实现这一目标。 它将创建一个目录 spa 阅读全文

posted @ 2021-02-01 15:22 ExplorerMan 阅读(1455) 评论(0) 推荐(0)

Spark 中的join方式(pySpark)

摘要: spark基础知识请参考spark官网:http://spark.apache.org/docs/1.2.1/quick-start.html 无论是mapreduce还是spark ,分布式框架的性能优化方向大致分为:负载均衡、网络传输和磁盘I/O 这三块。而spark是基于内存的计算框架,因此在 阅读全文

posted @ 2021-02-01 11:47 ExplorerMan 阅读(863) 评论(0) 推荐(0)

Spark性能优化指南——高级篇

摘要: 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作 阅读全文

posted @ 2021-02-01 11:08 ExplorerMan 阅读(249) 评论(0) 推荐(0)

Spark性能优化指南——基础篇

摘要: 详细原理见上图。我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置的参数,占有一定数量的内存和 阅读全文

posted @ 2021-02-01 11:06 ExplorerMan 阅读(143) 评论(0) 推荐(0)

pyspark-combineByKey详解

摘要: 最近学习Spark,我主要使用pyspark api进行编程, 网络上中文的解释不是很多,api官方文档也不是很容易明白,我结合自己的理解记录下来,方便别人参考,也方便自己回顾吧 本文介绍的是pyspark.RDD.combineByKey combineByKey(createCombiner,  阅读全文

posted @ 2021-02-01 10:54 ExplorerMan 阅读(415) 评论(0) 推荐(0)

导航