分布式系统 - 随笔分类 - 山上有风景

SparkCore的调优之资源调优

摘要：转载自：https://www.cnblogs.com/qingyunzong/p/8973707.html更多调优见其他文章一：概述在开发完Spark作业之后，就该为作业配置合适的资源了。 Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通阅读全文

posted @ 2020-04-04 10:17 山上有风景阅读(220) 评论(0) 推荐(0)

SparkCore的调优之Shuffle调优

摘要：https://www.cnblogs.com/ssyfj/p/12615298.html 转载自：https://www.cnblogs.com/qingyunzong/p/8954552.html 一：概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘阅读全文

posted @ 2020-04-03 23:21 山上有风景阅读(236) 评论(0) 推荐(0)

SparkCore的调优之数据倾斜调优

摘要：转载自：https://www.cnblogs.com/qingyunzong/p/8946679.html 一：数据倾斜（一）数据倾斜调优了解有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型阅读全文

posted @ 2020-04-03 22:05 山上有风景阅读(303) 评论(0) 推荐(0)

SparkCore的调优之开发调优

摘要：转载自：https://www.cnblogs.com/qingyunzong/p/8946637.html 一：避免创建重复的RDD 通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一阅读全文

posted @ 2020-04-03 16:25 山上有风景阅读(222) 评论(0) 推荐(0)

SparkStreaming工作原理

摘要：一：SparkCore,SparkSQL和SparkStreaming的类似之处（一）SparkCore Spark Core主要是作为离线批处理（Batch Processing），每次处理的数据都是一个固定的数据集，而不是变化的相关概念: RDD：弹性分布式数据集Spark Context：阅读全文

posted @ 2020-04-03 10:27 山上有风景阅读(3412) 评论(0) 推荐(2)

SparkSQL自定义函数

摘要：一：自定义函数分类在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种： 1.UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等2.UDAF（User- Defined Aggregation Funcation），阅读全文

posted @ 2020-04-03 09:27 山上有风景阅读(1870) 评论(0) 推荐(0)

SparkSQl简单使用

摘要：一：什么是SparkSQL？（一）SparkSQL简介 Spark SQL是Spark的一个模块，用于处理结构化的数据，它提供了一个数据抽象DataFrame（最核心的编程抽象就是DataFrame），并且SparkSQL作为分布式SQL查询引擎。Spark SQL就是将SQL转换成一个任务，提交阅读全文

posted @ 2020-04-02 15:09 山上有风景阅读(1480) 评论(0) 推荐(2)

Spark算子---重分区

摘要：Spark性能调试是使用Spark的用户在进行大数据处理的时候必须面对的问题，性能调优的方法有很多，这里首先介绍一种常见的调优问题-小分区合并问题。一：小分区合并问题介绍在使用Spark进行数据处理的过程中，常常会使用filter方法来对数据进行一些预处理，过滤掉一些不符合条件的数据。在使用该阅读全文

posted @ 2020-03-31 14:31 山上有风景阅读(1922) 评论(0) 推荐(0)

Spark分区

摘要：转载自：https://www.cnblogs.com/qingyunzong/p/8987065.html 一：分区的概念分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区。分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务tas 阅读全文

posted @ 2020-03-31 10:41 山上有风景阅读(323) 评论(0) 推荐(0)

Spark共享变量---累加器（及transformation和action回顾）

摘要：一：累加器简介（一）累加器用途在spark应用程序中，我们经常会有这样的需求，如异常监控，调试，记录符合某特性的数据的数目，这种需求都需要用到计数器，如果一个变量不被声明为一个累加器，那么它将在被改变时不会再driver端进行全局汇总，即在分布式运行时每个task运行的只是原始变量的一个副本阅读全文

posted @ 2020-03-30 17:39 山上有风景阅读(1455) 评论(0) 推荐(0)

Spark共享变量---广播变量

摘要：前提：在spark环境下，当我们传递一个操作（例如：map,reduce）的函数到远程多个节点上进行运行时，各个节点都需要使用到该函数中的变量。如果变量比较大，如何下发这些变量呢？如果我们使用下面的方式，进行数据下发：即将变量从Driver下发到每一个执行的task中。例如：50个execut 阅读全文

posted @ 2020-03-29 19:55 山上有风景阅读(905) 评论(0) 推荐(0)

Spark基本概念

摘要：参考：https://www.cnblogs.com/qingyunzong/p/8945933.html 一：Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkContext负责与Cluste 阅读全文

posted @ 2020-03-17 22:30 山上有风景阅读(789) 评论(0) 推荐(0)

Spark之RDD（含Java运行环境配置）

摘要：一：RDD简介（一）RDD概念 RDD（Resilient Distributed DataSet），弹性分布式数据集，是Spark中最基本，也是最重要的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知度调度和可伸缩性。RDD允许用户在阅读全文

posted @ 2020-03-15 21:08 山上有风景阅读(1319) 评论(0) 推荐(1)

Spark简介及安装

摘要：转载自：https://www.cnblogs.com/qingyunzong/p/8886338.html 一：Spark简介（一）Spark介绍 spark是用于大规模数据处理的统一分析引擎。 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计阅读全文

posted @ 2020-03-14 21:54 山上有风景阅读(976) 评论(0) 推荐(0)

flume简介安装及高可用集群部署

摘要：一：flume简介及安装 Flume学习笔记：Flume的安装与基础应用 Flume学习之路（一）Flume的基础介绍 Flume学习笔记：Flume集群的Avro RPC实现 Flume学习之路（二）Flume的Source类型 Flume学习之路（三）Flume的配置方式 flume拦截器阅读全文

posted @ 2020-03-09 15:20 山上有风景阅读(3411) 评论(1) 推荐(2)

Kafka的入门及安装使用

摘要：一：推文 Kafka学习之路（一）Kafka的简介 Kafka学习之路（二）Kafka的架构 Kafka学习之路（三）Kafka的高可用 Kafka学习之路（四）Kafka的安装 Kafka学习之路（五）Kafka在zookeeper中的存储二：Kafka架构原理（一）Kafka应用场阅读全文

posted @ 2020-03-07 15:35 山上有风景阅读(617) 评论(0) 推荐(0)

Storm安装及使用

摘要：一：安装storm （一）安装一个zookeeper集群注意：需要先启动zookeeper集群才可以，不然后面容易出错（二）上传storm的安装包，解压（三）修改配置文件storm.yaml #所使用的zookeeper集群主机 storm.zookeeper.servers: - "hado 阅读全文

posted @ 2020-03-06 18:57 山上有风景阅读(1103) 评论(0) 推荐(0)

Storm简介

摘要：补充：实时流计算和离线数据流计算（一）离线计算离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、***任务调度 1，hivesql 2、调度平台 3、Hadoop集群运维阅读全文

posted @ 2020-03-03 22:51 山上有风景阅读(1040) 评论(0) 推荐(0)

hive、Hbase、mysql的区别

摘要：补充：Hadoop生态圈一：Hive和HBase的区别 1）hive是sql语言，通过数据库的方式来操作hdfs文件系统，为了简化编程，底层计算方式为mapreduce。 2）hive是面向行存储的数据库。 3）Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表阅读全文

posted @ 2020-03-03 20:28 山上有风景阅读(431) 评论(0) 推荐(0)

HBaseclientAPI基本操作

摘要：一：Java类于HBase数据模型二：HBaseConfiguration 包名： org.apache.hadoop.hbase.HBaseConfiguration作用：对HBase进行配置。使用方法演示样例： HBaseConfiguration hconfig = new HBaseCo 阅读全文

posted @ 2020-03-03 20:10 山上有风景阅读(1368) 评论(0) 推荐(0)

山上有风景

周围的人都比你厉害，你才会慢慢变强

随笔分类 - 分布式系统

公告