随笔分类 -  Hadoop&Spark

如何在Spark集群的work节点上启动多个Executor?
摘要:如何在Spark集群的work节点上启动多个Executor? 默认情况下,Spark集群下的worker,只会启动一个Executor,只运行了一个 CoarseGrainedExecutorBackend 进程。Worker 通过持有 ExecutorRunner 对象来控制 CoarseGra 阅读全文

posted @ 2021-02-01 18:41 ExplorerMan 阅读(999) 评论(0) 推荐(0)

Spark 外部变量和BroadCast变量的区别
摘要:spark里面算子里面使用外部变量和BroadCast变量的区别: 1、如果在算子里面使用外部变量,spark会将外部变量复制多个副本,通过网络传输到每一个task里面去(也就是说,此时的外部变量是task级别的) 2、BroadCast变量,使用spark的广播功能进行广播,广播之后保障每个exe 阅读全文

posted @ 2021-02-01 18:32 ExplorerMan 阅读(204) 评论(0) 推荐(0)

Spark 广播变量(broadcast)更新方法
摘要:Spark 广播变量(broadcast)更新方法更新方法spark 广播变量可以通过unpersist方法删除,然后重新广播 1 2 3 4 5 6 7 val map = sc.textFile("/test.txt").map(line => { val arr = line.split(", 阅读全文

posted @ 2021-02-01 17:54 ExplorerMan 阅读(337) 评论(0) 推荐(0)

fold()操作和reduce()操作的区别
摘要:reduce()——规约操作,包含reduceLeft()和reduceRight()两种操作。 fold()——折叠操作,包含foldLeft()和foldRight()两种操作。 两者功能相似,不同之处在于: fold()操作需要从一个初始值开始,并以该值作为上下文,处理集合中的每个元素。 re 阅读全文

posted @ 2021-02-01 17:26 ExplorerMan 阅读(360) 评论(0) 推荐(0)

flatmap和MapPartition和Map的区别
摘要:背景 map和flatmap,从字面意思或者官网介绍,可能会给一些人在理解上造成困扰【包括本人】,所以今天专门花时间来分析,现整理如下: 首先做一下名词解释 我的理解 map:map方法返回的是一个object,map将流中的当前元素替换为此返回值; flatMap:flatMap方法返回的是一个s 阅读全文

posted @ 2021-02-01 17:12 ExplorerMan 阅读(466) 评论(0) 推荐(0)

pyspark教程
摘要:Apache Spark是用 Scala编程语言 编写的。为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。使用PySpark,您也可以使用Python编程语言中的 RDD 。正是由于一个名为 Py4j 的库,他们才能实现这一目标。 它将创建一个目录 spa 阅读全文

posted @ 2021-02-01 15:22 ExplorerMan 阅读(1452) 评论(0) 推荐(0)

Spark 中的join方式(pySpark)
摘要:spark基础知识请参考spark官网:http://spark.apache.org/docs/1.2.1/quick-start.html 无论是mapreduce还是spark ,分布式框架的性能优化方向大致分为:负载均衡、网络传输和磁盘I/O 这三块。而spark是基于内存的计算框架,因此在 阅读全文

posted @ 2021-02-01 11:47 ExplorerMan 阅读(863) 评论(0) 推荐(0)

Spark性能优化指南——高级篇
摘要:前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作 阅读全文

posted @ 2021-02-01 11:08 ExplorerMan 阅读(249) 评论(0) 推荐(0)

Spark性能优化指南——基础篇
摘要:详细原理见上图。我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置的参数,占有一定数量的内存和 阅读全文

posted @ 2021-02-01 11:06 ExplorerMan 阅读(141) 评论(0) 推荐(0)

pyspark-combineByKey详解
摘要:最近学习Spark,我主要使用pyspark api进行编程, 网络上中文的解释不是很多,api官方文档也不是很容易明白,我结合自己的理解记录下来,方便别人参考,也方便自己回顾吧 本文介绍的是pyspark.RDD.combineByKey combineByKey(createCombiner,  阅读全文

posted @ 2021-02-01 10:54 ExplorerMan 阅读(414) 评论(0) 推荐(0)

【spark】常用转换操作:keys 、values和mapValues
摘要:1.keys 功能: 返回所有键值对的key 示例 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = rdd.map(x => (x,1)) pairRdd.ke 阅读全文

posted @ 2021-01-29 18:46 ExplorerMan 阅读(219) 评论(0) 推荐(0)

Spark 持久化(cache和persist的区别)
摘要:1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算 阅读全文

posted @ 2021-01-29 18:30 ExplorerMan 阅读(917) 评论(0) 推荐(0)

Spark MLlib中KMeans聚类算法的解析和应用
摘要:聚类算法是机器学习中的一种无监督学习算法,它在数据科学领域应用场景很广泛,比如基于用户购买行为、兴趣等来构建推荐系统。 核心思想可以理解为,在给定的数据集中(数据集中的每个元素有可被观察的n个属性),使用聚类算法将数据集划分为k个子集,并且要求每个子集内部的元素之间的差异度尽可能低,而不同子集元素的 阅读全文

posted @ 2021-01-29 12:56 ExplorerMan 阅读(332) 评论(0) 推荐(0)

解析SparkStreaming和Kafka集成的两种方式
摘要:spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。 针对不同的spark、kafka版本 阅读全文

posted @ 2021-01-29 12:54 ExplorerMan 阅读(225) 评论(0) 推荐(0)

重要 | Spark分区并行度决定机制
摘要:最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.parallelism这个参数时不是一直起作用?其实笔者之前的文章已有相关介绍,想知道为什么,就必须了解S 阅读全文

posted @ 2021-01-29 12:00 ExplorerMan 阅读(538) 评论(0) 推荐(0)

Spark/Scala实现推荐系统中的相似度算法(欧几里得距离、皮尔逊相关系数、余弦相似度:附实现代码)
摘要:在推荐系统中,协同过滤算法是应用较多的,具体又主要划分为基于用户和基于物品的协同过滤算法,核心点就是基于"一个人"或"一件物品",根据这个人或物品所具有的属性,比如对于人就是性别、年龄、工作、收入、喜好等,找出与这个人或物品相似的人或物,当然实际处理中参考的因子会复杂的多。 本篇文章不介绍相关数学概 阅读全文

posted @ 2021-01-29 11:59 ExplorerMan 阅读(375) 评论(0) 推荐(0)

九种常见的数据分析模型
摘要:1. 漏斗分析模型 漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。 运营人员可以通过观察不同属性的用户群体(如新注册用户与老客户、不同渠道来源的客户)各环节转化率,各流程步骤转化率的差异对比,了解转化率最高的用户群体,分析漏斗合理性,并针 阅读全文

posted @ 2021-01-29 11:58 ExplorerMan 阅读(817) 评论(0) 推荐(0)

Spark推荐系统实践
摘要:推荐系统是根据用户的行为、兴趣等特征,将用户感兴趣的信息、产品等推荐给用户的系统,它的出现主要是为了解决信息过载和用户无明确需求的问题,根据划分标准的不同,又分很多种类别: 根据目标用户的不同,可划分为基于大众行为的推荐引擎和个性化推荐引擎 根据数据之间的相关性,可划分为基于人口统计学的推荐和基于内 阅读全文

posted @ 2021-01-29 11:57 ExplorerMan 阅读(384) 评论(0) 推荐(0)

Spark技术栈
摘要:作者:无所不能的小裁缝链接:https://www.zhihu.com/question/51378885/answer/207497660来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 大数据的浪潮风靡全球的时候,Spark火了。在国外 Yahoo!、Twitter 阅读全文

posted @ 2021-01-26 17:35 ExplorerMan 阅读(675) 评论(0) 推荐(0)

Spark实战(八)spark的几种启动方式
摘要:spark常用的启动方式 一、Local(本地模式) Spark单机运行,一般用于开发测试。可以通过Local[N]来设置,其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程(该线程有1个core)。spark-submit 和 spark-submit --mas 阅读全文

posted @ 2021-01-23 18:46 ExplorerMan 阅读(1899) 评论(0) 推荐(0)

导航