随笔分类 - 分布式系统
摘要:转载自:https://www.cnblogs.com/qingyunzong/p/8973707.html更多调优见其他文章 一:概述 在开发完Spark作业之后,就该为作业配置合适的资源了。 Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。 很多Spark初学者,通
阅读全文
摘要:https://www.cnblogs.com/ssyfj/p/12615298.html 转载自:https://www.cnblogs.com/qingyunzong/p/8954552.html 一:概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘
阅读全文
摘要:转载自:https://www.cnblogs.com/qingyunzong/p/8946679.html 一:数据倾斜 (一)数据倾斜调优了解 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型
阅读全文
摘要:转载自:https://www.cnblogs.com/qingyunzong/p/8946637.html 一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD; 接着对这个RDD执行某个算子操作,然后得到下一
阅读全文
摘要:一:SparkCore,SparkSQL和SparkStreaming的类似之处 (一)SparkCore Spark Core主要是作为离线批处理(Batch Processing),每次处理的数据都是一个固定的数据集,而不是变化的 相关概念: RDD:弹性分布式数据集Spark Context:
阅读全文
摘要:一:自定义函数分类 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: 1.UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等2.UDAF(User- Defined Aggregation Funcation),
阅读全文
摘要:一:什么是SparkSQL? (一)SparkSQL简介 Spark SQL是Spark的一个模块,用于处理结构化的数据,它提供了一个数据抽象DataFrame(最核心的编程抽象就是DataFrame),并且SparkSQL作为分布式SQL查询引擎。Spark SQL就是将SQL转换成一个任务,提交
阅读全文
摘要:Spark性能调试是使用Spark的用户在进行大数据处理的时候必须面对的问题,性能调优的方法有很多,这里首先介绍一种常见的调优问题-小分区合并问题。 一:小分区合并问题介绍 在使用Spark进行数据处理的过程中,常常会使用filter方法来对数据进行一些预处理,过滤掉一些不符合条件的数据。 在使用该
阅读全文
摘要:转载自:https://www.cnblogs.com/qingyunzong/p/8987065.html 一:分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区。 分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务tas
阅读全文
摘要:一:累加器简介 (一)累加器用途 在spark应用程序中,我们经常会有这样的需求,如异常监控,调试,记录符合某特性的数据的数目,这种需求都需要用到计数器, 如果一个变量不被声明为一个累加器,那么它将在被改变时不会再driver端进行全局汇总, 即在分布式运行时每个task运行的只是原始变量的一个副本
阅读全文
摘要:前提: 在spark环境下,当我们传递一个操作(例如:map,reduce)的函数到远程多个节点上进行运行时,各个节点都需要使用到该函数中的变量。如果变量比较大,如何下发这些变量呢?如果我们使用下面的方式,进行数据下发: 即将变量从Driver下发到每一个执行的task中。 例如:50个execut
阅读全文
摘要:参考:https://www.cnblogs.com/qingyunzong/p/8945933.html 一:Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与Cluste
阅读全文
摘要:一:RDD简介 (一)RDD概念 RDD(Resilient Distributed DataSet),弹性分布式数据集,是Spark中最基本,也是最重要的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知度调度和可伸缩性。RDD允许用户在
阅读全文
摘要:转载自:https://www.cnblogs.com/qingyunzong/p/8886338.html 一:Spark简介 (一)Spark介绍 spark是用于大规模数据处理的统一分析引擎。 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计
阅读全文
摘要:一:flume简介及安装 Flume学习笔记:Flume的安装与基础应用 Flume学习之路 (一)Flume的基础介绍 Flume学习笔记:Flume集群的Avro RPC实现 Flume学习之路 (二)Flume的Source类型 Flume学习之路 (三)Flume的配置方式 flume拦截器
阅读全文
摘要:一:推文 Kafka学习之路 (一)Kafka的简介 Kafka学习之路 (二)Kafka的架构 Kafka学习之路 (三)Kafka的高可用 Kafka学习之路 (四)Kafka的安装 Kafka学习之路 (五)Kafka在zookeeper中的存储 二:Kafka架构原理 (一)Kafka应用场
阅读全文
摘要:一:安装storm (一)安装一个zookeeper集群 注意:需要先启动zookeeper集群才可以,不然后面容易出错 (二)上传storm的安装包,解压 (三)修改配置文件storm.yaml #所使用的zookeeper集群主机 storm.zookeeper.servers: - "hado
阅读全文
摘要:补充:实时流计算和离线数据流计算 (一)离线计算 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、***任务调度 1,hivesql 2、调度平台 3、Hadoop集群运维
阅读全文
摘要:补充:Hadoop生态圈 一:Hive和HBase的区别 1)hive是sql语言,通过数据库的方式来操作hdfs文件系统,为了简化编程,底层计算方式为mapreduce。 2)hive是面向行存储的数据库。 3)Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表
阅读全文
摘要:一:Java类于HBase数据模型 二:HBaseConfiguration 包名 : org.apache.hadoop.hbase.HBaseConfiguration作用:对HBase进行配置。使用方法演示样例: HBaseConfiguration hconfig = new HBaseCo
阅读全文

浙公网安备 33010602011771号