上一页 1 ··· 47 48 49 50 51 52 53 54 55 ··· 234 下一页

2021年2月1日

Spark 中的join方式(pySpark)

摘要: spark基础知识请参考spark官网:http://spark.apache.org/docs/1.2.1/quick-start.html 无论是mapreduce还是spark ,分布式框架的性能优化方向大致分为:负载均衡、网络传输和磁盘I/O 这三块。而spark是基于内存的计算框架,因此在 阅读全文

posted @ 2021-02-01 11:47 ExplorerMan 阅读(877) 评论(0) 推荐(0)

Spark性能优化指南——高级篇

摘要: 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作 阅读全文

posted @ 2021-02-01 11:08 ExplorerMan 阅读(262) 评论(0) 推荐(0)

Spark性能优化指南——基础篇

摘要: 详细原理见上图。我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置的参数,占有一定数量的内存和 阅读全文

posted @ 2021-02-01 11:06 ExplorerMan 阅读(159) 评论(0) 推荐(0)

pyspark-combineByKey详解

摘要: 最近学习Spark,我主要使用pyspark api进行编程, 网络上中文的解释不是很多,api官方文档也不是很容易明白,我结合自己的理解记录下来,方便别人参考,也方便自己回顾吧 本文介绍的是pyspark.RDD.combineByKey combineByKey(createCombiner,  阅读全文

posted @ 2021-02-01 10:54 ExplorerMan 阅读(421) 评论(0) 推荐(0)

2021年1月29日

【spark】常用转换操作:keys 、values和mapValues

摘要: 1.keys 功能: 返回所有键值对的key 示例 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = rdd.map(x => (x,1)) pairRdd.ke 阅读全文

posted @ 2021-01-29 18:46 ExplorerMan 阅读(230) 评论(0) 推荐(0)

Spark 持久化(cache和persist的区别)

摘要: 1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算 阅读全文

posted @ 2021-01-29 18:30 ExplorerMan 阅读(956) 评论(0) 推荐(0)

Spark MLlib中KMeans聚类算法的解析和应用

摘要: 聚类算法是机器学习中的一种无监督学习算法,它在数据科学领域应用场景很广泛,比如基于用户购买行为、兴趣等来构建推荐系统。 核心思想可以理解为,在给定的数据集中(数据集中的每个元素有可被观察的n个属性),使用聚类算法将数据集划分为k个子集,并且要求每个子集内部的元素之间的差异度尽可能低,而不同子集元素的 阅读全文

posted @ 2021-01-29 12:56 ExplorerMan 阅读(341) 评论(0) 推荐(0)

解析SparkStreaming和Kafka集成的两种方式

摘要: spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。 针对不同的spark、kafka版本 阅读全文

posted @ 2021-01-29 12:54 ExplorerMan 阅读(242) 评论(0) 推荐(0)

重要 | Spark分区并行度决定机制

摘要: 最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.parallelism这个参数时不是一直起作用?其实笔者之前的文章已有相关介绍,想知道为什么,就必须了解S 阅读全文

posted @ 2021-01-29 12:00 ExplorerMan 阅读(556) 评论(0) 推荐(0)

Spark/Scala实现推荐系统中的相似度算法(欧几里得距离、皮尔逊相关系数、余弦相似度:附实现代码)

摘要: 在推荐系统中,协同过滤算法是应用较多的,具体又主要划分为基于用户和基于物品的协同过滤算法,核心点就是基于"一个人"或"一件物品",根据这个人或物品所具有的属性,比如对于人就是性别、年龄、工作、收入、喜好等,找出与这个人或物品相似的人或物,当然实际处理中参考的因子会复杂的多。 本篇文章不介绍相关数学概 阅读全文

posted @ 2021-01-29 11:59 ExplorerMan 阅读(410) 评论(0) 推荐(0)

上一页 1 ··· 47 48 49 50 51 52 53 54 55 ··· 234 下一页

导航