摘要: 摘抄自:https://tech.meituan.com/spark-tuning-pro.html 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证 阅读全文
posted @ 2018-04-25 19:16 扎心了,老铁 阅读(10123) 评论(0) 推荐(9) 编辑
摘要: 摘抄自:https://tech.meituan.com/spark-tuning-basic.html 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计 阅读全文
posted @ 2018-04-25 19:07 扎心了,老铁 阅读(12310) 评论(1) 推荐(10) 编辑
摘要: 一、Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext (3) 阅读全文
posted @ 2018-04-25 18:53 扎心了,老铁 阅读(26338) 评论(5) 推荐(14) 编辑
摘要: Transformation算子 基本的初始化 java scala 一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1 map (1) 使用Java7进行编写 map十分容易理解,他是将源JavaRDD的一个一个元素的传入call方法,并经过 阅读全文
posted @ 2018-04-25 15:00 扎心了,老铁 阅读(20930) 评论(8) 推荐(10) 编辑