03 2019 档案
摘要:一、从kafkaBroker获取offset 二、从zookeeper获取offset 三、使用zookeeper管理offset
阅读全文
摘要:一、receiver模式 1 、receiver模式原理图 2 receiver模式理解: 在SparkStreaming程序运行起来后,Executor中会有receiver tasks接收kafka推送过来的数据。数据会被持久化,默认级别为MEMORY_AND_DISK_SER_2,这个级别也可
阅读全文
摘要:spark Streaming的checkpoint是一个利器,帮助在driver端非代码逻辑错误导致的driver应用失败重启,比如网络,jvm等,当然也仅限于支持自动重启的集群管理器,比如yarn。由于checkpoint信息包含序列化的Scala / Java / Python对象,尝试使用新
阅读全文
摘要:本测试使用本地文件系统代替HDFS,如需测试HDFS监控请解开注释换成自己的HDFS集群 sparkstreaming只会监控该文件夹下新增的文件,并不会监控到原文件的删除和修改 SparkStreaming On HDFS 代码 1:监控文件夹下新增加的数据并打印到控制台上 代码 2:该代码源源不
阅读全文
摘要:摘自:https://www.cnblogs.com/qingyunzong/p/9007107.html,部分做修改 一、Kafka在zookeeper中存储结构图 二、分析 2.1 topic注册信息 /brokers/topics/[topic] : 存储某个topic的partitions所
阅读全文
摘要:摘自:https://www.cnblogs.com/qingyunzong/p/9004703.html 一、高可用的由来 1.1 为何需要Replication 在Kafka在0.8以前的版本中,是没有Replication的,一旦某一个Broker宕机,则其上所有的Partition数据都不可
阅读全文
摘要:一 解压 配置 1 上传解压缩 2 修改配置文件 进入kafka的安装配置目录 主要关注:server.properties 这个文件即可,我们可以发现在目录下: 有很多文件,这里可以发现有Zookeeper文件,我们可以根据Kafka内带的zk集群来启动,但是建议使用独立的zk集群 server.
阅读全文
摘要:一、Kafka的架构 如上图所示,一个典型的Kafka集群中包含若干Producer(可以是web前端产生的Page View,或者是服务器日志,系统CPU、Memory等),若干broker(Kafka支持水平扩展,一般broker数量越多,集群吞吐率越高),若干Consumer Group,以及
阅读全文
摘要:转自:https://www.cnblogs.com/qingyunzong/p/9004509.html 一、简介 1.1 概述 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于we
阅读全文
摘要:1 foreachRDD output operation算子,必须对抽取出来的RDD执行action类算子,代码才能执行。 代码:见上个随笔例子 2 transform transformation类算子 可以通过transform算子,对Dstream做RDD到RDD的任意操作。 代码: 3 u
阅读全文
摘要:1、SparkCore、SparkSQL和SparkStreaming的类似之处 2 SparkStreaming简介 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter
阅读全文
摘要:1.Shark Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外,Sha
阅读全文
摘要:摘自:https://www.cnblogs.com/qingyunzong/p/8973857.html 一、概述 垃圾收集 Garbage Collection 通常被称为“GC”,它诞生于1960年 MIT 的 Lisp 语言,经过半个多世纪,目前已经十分成熟了。 jvm 中,程序计数器、虚拟
阅读全文
摘要:摘自:https://www.cnblogs.com/qingyunzong/p/8973748.html 一、JVM的结构图 1.1 Java内存结构 JVM内存结构主要有三大块:堆内存、方法区和栈。 堆内存是JVM中最大的一块由年轻代和老年代组成,而年轻代内存又被分成三部分,Eden空间、Fro
阅读全文
摘要:摘抄自:https://www.cnblogs.com/qingyunzong/p/8973707.html 一、概述 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要
阅读全文
摘要:摘抄自:https://www.cnblogs.com/qingyunzong/p/8946637.html 一、概述 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能
阅读全文
摘要:摘抄自:https://www.cnblogs.com/qingyunzong/p/8946637.html 一、概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffl
阅读全文
摘要:摘抄自:https://www.cnblogs.com/qingyunzong/p/8946637.html 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题
阅读全文
摘要:摘抄自:https://www.cnblogs.com/qingyunzong/p/8946637.html 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型
阅读全文
摘要:摘自:https://www.cnblogs.com/qingyunzong/p/8945933.html 一、Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与Cluste
阅读全文

浙公网安备 33010602011771号