SparkCore - 随笔分类 - 大码王

sparkcore入门到实战之（14）HBase 中加盐（Salting）之后的表如何读取

摘要：我们知道，HBase 为我们提供了 hbase-mapreduce 工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下：This module contains implementations of InputFormat, OutputFo 阅读全文

posted @ 2020-06-04 10:31 大码王阅读(535) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（13）在Spark上通过BulkLoad快速将海量数据导入到Hbase

摘要：本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式：第一种使用Put普通的方法来倒数；第二种使用Bulk Load API。使用org.apache.hadoop.hbase.client.Put来写数据使用 org.apache.hadoop.h 阅读全文

posted @ 2020-06-04 10:26 大码王阅读(584) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（12）Spark读取Hbase中的数据

摘要：大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下： JavaRDD<Integer> myRDD = sc.parallelize(Arrays.asList(1,2,3)); Sc 阅读全文

posted @ 2020-06-04 10:10 大码王阅读(910) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（11）《Spark性能优化之shuffle调优篇》

摘要：shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发阅读全文

posted @ 2020-06-03 17:58 大码王阅读(596) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（10）《Spark性能优化之数据倾斜调优篇》

摘要：前言继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能阅读全文

posted @ 2020-06-03 17:46 大码王阅读(240) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（9）《Spark性能优化之资源调优篇》

摘要：Spark作业基本运行原理详细原理见上图。我们使用spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。根据你使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置阅读全文

posted @ 2020-06-03 17:44 大码王阅读(229) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（8）《Spark性能优化之开发调优篇》

摘要：开发调优 Spark性能优化的第一步，就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务阅读全文

posted @ 2020-06-02 18:52 大码王阅读(288) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（7）Spark优化总结

摘要：Spark 的监控方式 1、Spark Web UI Spark 内置应用运行监控工具（提供了应用运行层面的主要信息--重要）2、Ganglia 分析集群的使用状况和资源瓶颈（提供了集群的使用状况--资源瓶颈--重要）3、Nmon 主机 CPU、网络、磁盘、内存（提供了单机信息）4、Jmeter 系阅读全文

posted @ 2020-05-31 10:50 大码王阅读(302) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（6）spark优化从入门到实战

摘要：第1章 Spark 性能优化 1.1 调优基本原则 1.1.1 基本概念和原则首先，要搞清楚 Spark 的几个基本概念和原则，否则系统的性能调优无从谈起：每一台 host 上面可以并行 N 个 worker，每一个 worker 下面可以并行 M 个 executor，task 们会被分配到阅读全文

posted @ 2020-05-30 23:22 大码王阅读(594) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（1）spark基础入门

摘要：第1章 Spark 概述 1.1 什么是 Spark 官网：http://spark.apache.org Spark 的产生背景 Spark 是一种快速、通用、可扩展的大数据分析引擎，2009 年诞生于加州大学伯克利分校 AMPLab，2010 年开源，2013 年 6 月成为 Apache 孵化阅读全文

posted @ 2020-05-30 20:50 大码王阅读(726) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（5）sparkcore企业运用

摘要：1、RDD 全称弹性分布式数据集 Resilient Distributed Dataset它就是一个 class。 abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient priv 阅读全文

posted @ 2020-05-29 18:25 大码王阅读(344) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（2）sparkcore入门到实战

摘要：第1章 RDD 概念 1.1 RDD 为什么会产生 RDD：Resilient Distributed Dataset 弹性分布式数据集 RDD 是 Spark 的基石，是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢？ Hadoop 的 MapReduce 是一种基于数据集的工阅读全文

posted @ 2020-05-29 18:02 大码王阅读(681) 评论(0) 推荐(2) 编辑

sparkcore入门到实战之（4）Spark_Transformation和Action算子

摘要：Transformation 和 Action 常用算子一、Transformation 1.1 map 1.2 filter 1.3 flatMap 1.4 mapPartitions 1.5 mapPartitionsWithIndex 1.6 sample 1.7 union 1.8 i 阅读全文

posted @ 2020-05-15 09:40 大码王阅读(352) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（3）弹性式数据集RDD

摘要：弹性式数据集RDD 一、RDD简介二、创建RDD 2.1 由现有集合创建 2.2 引用外部存储系统中的数据集 2.3 textFile & wholeTextFiles三、操作RDD四、缓存RDD 4.1 缓存级别 4.2 使用缓存 4.3 移除缓存五、理解shuffle 5.1 shuffle 阅读全文

posted @ 2020-05-15 09:38 大码王阅读(306) 评论(0) 推荐(0) 编辑

随笔分类 - SparkCore

公告