……

随笔分类 -  SparkCore

spark
sparkcore入门到实战之(14)HBase 中加盐(Salting)之后的表如何读取
摘要:我们知道,HBase 为我们提供了 hbase-mapreduce 工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下:This module contains implementations of InputFormat, OutputFo 阅读全文
posted @ 2020-06-04 10:31 大码王 阅读(535) 评论(0) 推荐(0) 编辑
sparkcore入门到实战之(13)在Spark上通过BulkLoad快速将海量数据导入到Hbase
摘要:本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式:第一种使用Put普通的方法来倒数;第二种使用Bulk Load API。 使用org.apache.hadoop.hbase.client.Put来写数据 使用 org.apache.hadoop.h 阅读全文
posted @ 2020-06-04 10:26 大码王 阅读(584) 评论(0) 推荐(0) 编辑
sparkcore入门到实战之(12)Spark读取Hbase中的数据
摘要:大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如下: JavaRDD<Integer> myRDD = sc.parallelize(Arrays.asList(1,2,3)); Sc 阅读全文
posted @ 2020-06-04 10:10 大码王 阅读(910) 评论(0) 推荐(0) 编辑
sparkcore入门到实战之(11)《Spark性能优化之shuffle调优篇》
摘要:shuffle调优 调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发 阅读全文
posted @ 2020-06-03 17:58 大码王 阅读(596) 评论(0) 推荐(0) 编辑
sparkcore入门到实战之(10)《Spark性能优化之数据倾斜调优篇》
摘要:前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能 阅读全文
posted @ 2020-06-03 17:46 大码王 阅读(240) 评论(0) 推荐(0) 编辑
sparkcore入门到实战之(9)《Spark性能优化之资源调优篇》
摘要:Spark作业基本运行原理 详细原理见上图。我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置 阅读全文
posted @ 2020-06-03 17:44 大码王 阅读(229) 评论(0) 推荐(0) 编辑
sparkcore入门到实战之(8) 《Spark性能优化之开发调优篇》
摘要:开发调优 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务 阅读全文
posted @ 2020-06-02 18:52 大码王 阅读(288) 评论(0) 推荐(0) 编辑
sparkcore入门到实战之(7)Spark优化总结
摘要:Spark 的监控方式 1、Spark Web UI Spark 内置应用运行监控工具(提供了应用运行层面的主要信息--重要)2、Ganglia 分析集群的使用状况和资源瓶颈(提供了集群的使用状况--资源瓶颈--重要)3、Nmon 主机 CPU、网络、磁盘、内存(提供了单机信息)4、Jmeter 系 阅读全文
posted @ 2020-05-31 10:50 大码王 阅读(302) 评论(0) 推荐(0) 编辑
sparkcore入门到实战之(6)spark优化从入门到实战
摘要:第1章 Spark 性能优化 1.1 调优基本原则 1.1.1 基本概念和原则 首先,要搞清楚 Spark 的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台 host 上面可以并行 N 个 worker,每一个 worker 下面可以并行 M 个 executor,task 们会被分配到 阅读全文
posted @ 2020-05-30 23:22 大码王 阅读(594) 评论(0) 推荐(0) 编辑
sparkcore入门到实战之(1)spark基础入门
摘要:第1章 Spark 概述 1.1 什么是 Spark 官网:http://spark.apache.org Spark 的产生背景 Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校 AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化 阅读全文
posted @ 2020-05-30 20:50 大码王 阅读(726) 评论(0) 推荐(0) 编辑
sparkcore入门到实战之(5)sparkcore企业运用
摘要:1、RDD 全称 弹性分布式数据集 Resilient Distributed Dataset它就是一个 class。 abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient priv 阅读全文
posted @ 2020-05-29 18:25 大码王 阅读(344) 评论(0) 推荐(0) 编辑
sparkcore入门到实战之(2)sparkcore入门到实战
摘要:第1章 RDD 概念 1.1 RDD 为什么会产生 RDD:Resilient Distributed Dataset 弹性分布式数据集 RDD 是 Spark 的基石,是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢? Hadoop 的 MapReduce 是一种基于数据集的工 阅读全文
posted @ 2020-05-29 18:02 大码王 阅读(681) 评论(0) 推荐(2) 编辑
sparkcore入门到实战之(4)Spark_Transformation和Action算子
摘要:Transformation 和 Action 常用算子 ​ 一、Transformation 1.1 map 1.2 filter 1.3 flatMap 1.4 mapPartitions 1.5 mapPartitionsWithIndex 1.6 sample 1.7 union 1.8 i 阅读全文
posted @ 2020-05-15 09:40 大码王 阅读(352) 评论(0) 推荐(0) 编辑
sparkcore入门到实战之(3)弹性式数据集RDD
摘要:弹性式数据集RDD ​ 一、RDD简介二、创建RDD 2.1 由现有集合创建 2.2 引用外部存储系统中的数据集 2.3 textFile & wholeTextFiles三、操作RDD四、缓存RDD 4.1 缓存级别 4.2 使用缓存 4.3 移除缓存五、理解shuffle 5.1 shuffle 阅读全文
posted @ 2020-05-15 09:38 大码王 阅读(306) 评论(0) 推荐(0) 编辑

复制代码