ExplorerMan

Spark 中的join方式(pySpark)

摘要： spark基础知识请参考spark官网：http://spark.apache.org/docs/1.2.1/quick-start.html 无论是mapreduce还是spark ,分布式框架的性能优化方向大致分为：负载均衡、网络传输和磁盘I/O 这三块。而spark是基于内存的计算框架,因此在阅读全文

posted @ 2021-02-01 11:47 ExplorerMan 阅读(878) 评论(0) 推荐(0)

Spark性能优化指南——高级篇

摘要：前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作阅读全文

posted @ 2021-02-01 11:08 ExplorerMan 阅读(262) 评论(0) 推荐(0)

Spark性能优化指南——基础篇

摘要：详细原理见上图。我们使用spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。根据你使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置的参数，占有一定数量的内存和阅读全文

posted @ 2021-02-01 11:06 ExplorerMan 阅读(159) 评论(0) 推荐(0)

pyspark-combineByKey详解

摘要：最近学习Spark，我主要使用pyspark api进行编程，网络上中文的解释不是很多，api官方文档也不是很容易明白，我结合自己的理解记录下来，方便别人参考，也方便自己回顾吧本文介绍的是pyspark.RDD.combineByKey combineByKey(createCombiner, 阅读全文

posted @ 2021-02-01 10:54 ExplorerMan 阅读(421) 评论(0) 推荐(0)

【spark】常用转换操作：keys 、values和mapValues

摘要： 1.keys 功能：返回所有键值对的key 示例 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = rdd.map(x => (x,1)) pairRdd.ke 阅读全文

posted @ 2021-01-29 18:46 ExplorerMan 阅读(230) 评论(0) 推荐(0)

Spark 持久化（cache和persist的区别）

摘要： 1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算阅读全文

posted @ 2021-01-29 18:30 ExplorerMan 阅读(956) 评论(0) 推荐(0)

Spark MLlib中KMeans聚类算法的解析和应用

摘要：聚类算法是机器学习中的一种无监督学习算法，它在数据科学领域应用场景很广泛，比如基于用户购买行为、兴趣等来构建推荐系统。核心思想可以理解为，在给定的数据集中（数据集中的每个元素有可被观察的n个属性），使用聚类算法将数据集划分为k个子集，并且要求每个子集内部的元素之间的差异度尽可能低，而不同子集元素的阅读全文

posted @ 2021-01-29 12:56 ExplorerMan 阅读(341) 评论(0) 推荐(0)

解析SparkStreaming和Kafka集成的两种方式

摘要： spark streaming是基于微批处理的流式计算引擎，通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中，通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。针对不同的spark、kafka版本阅读全文

posted @ 2021-01-29 12:54 ExplorerMan 阅读(242) 评论(0) 推荐(0)

重要 | Spark分区并行度决定机制

摘要：最近经常有小伙伴留言，核心问题都比较类似，就是虽然接触Spark有一段时间了，但是搞不明白一个问题，为什么我从HDFS上加载不同的文件时，打印的分区数不一样，并且好像spark.default.parallelism这个参数时不是一直起作用？其实笔者之前的文章已有相关介绍，想知道为什么，就必须了解S 阅读全文

posted @ 2021-01-29 12:00 ExplorerMan 阅读(556) 评论(0) 推荐(0)

Spark/Scala实现推荐系统中的相似度算法（欧几里得距离、皮尔逊相关系数、余弦相似度：附实现代码）

摘要：在推荐系统中，协同过滤算法是应用较多的，具体又主要划分为基于用户和基于物品的协同过滤算法，核心点就是基于"一个人"或"一件物品"，根据这个人或物品所具有的属性，比如对于人就是性别、年龄、工作、收入、喜好等，找出与这个人或物品相似的人或物，当然实际处理中参考的因子会复杂的多。本篇文章不介绍相关数学概阅读全文

posted @ 2021-01-29 11:59 ExplorerMan 阅读(410) 评论(0) 推荐(0)