心有多大,世界就有多大

2020年1月8日

Spark-Streaming (组件篇 二)

摘要: https://www.cnblogs.com/liuliliuli2017/p/6809094.htmlSpark Streaming运行原理spark程序是使用一个spark应用实例一次性对一批历史数据进行处理,spark streaming是将持续不断输入的数据流转换成多个batch分片,使用一批spark应用实例进行处理。从原理上看,把传统的spark批处理程序变成streaming程序,... 阅读全文

posted @ 2020-01-08 14:20 心有多大,世界就有多大 阅读(276) 评论(0) 推荐(0) 编辑

Spark运行架构 (核心篇 四)

摘要: 目录1、运行架构总体介绍Spark运行模式:Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的Standalone模式。对于外部资源调度框架的支持,目前的实现包括相对稳定的Mesos模式,以及had... 阅读全文

posted @ 2020-01-08 14:16 心有多大,世界就有多大 阅读(211) 评论(0) 推荐(0) 编辑

Spark存储原理 (核心篇 三)

摘要: 目录存储分析Shuffle分析序列化和压缩共享变量实例https://www.cnblogs.com/tgzhu/p/5822370.htmlSpark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块; Spark的内存可以大体归为两类:execution和storage,前者包括shuffles、joins、sorts和aggregations所需内存,后者包括cache... 阅读全文

posted @ 2020-01-08 14:14 心有多大,世界就有多大 阅读(956) 评论(0) 推荐(0) 编辑

Spark核心原理(核心篇 二)

摘要: 目录运行结构图 & 常用术语消息通信原理运行流程图调度算法容错及HA监控一、运行结构图 & 常用术语 Application: Appliction都是指用户编写的Spark应用程序,其中包括一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码SparkContext: Spark应用程序的入口,负责调度各个运算资源,协调各个Worker Node上的Executo... 阅读全文

posted @ 2020-01-08 13:42 心有多大,世界就有多大 阅读(340) 评论(0) 推荐(0) 编辑

Spark编程模型(核心篇 一)

摘要: 目录RDD概述RDD实现RDD运行流程RDD分区RDD操作分类RDD编程接口说明一、RDD概述RDD:是Resilient distributed datasets的简称,中文为弹性分布式数据集;是Spark最核心的模块和类DAG:Spark将计算转换为一个有向无环图(DAG)的任务集合,通过为RDD提供一种基于粗粒度变换(如map, filter, join等)的接口RDD类型:Parallel... 阅读全文

posted @ 2020-01-08 13:40 心有多大,世界就有多大 阅读(274) 评论(0) 推荐(0) 编辑

Spark安装部署(Spark基础篇二)

摘要: 后继再补充 阅读全文

posted @ 2020-01-08 12:58 心有多大,世界就有多大 阅读(126) 评论(0) 推荐(0) 编辑

Spark及生态圈概述(Spark基础篇一)

摘要: 目录Spark介绍Spark生态组件介绍Spark特点Spark适合场景Spark与hadoop一、Spark介绍 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Sp... 阅读全文

posted @ 2020-01-08 12:46 心有多大,世界就有多大 阅读(664) 评论(0) 推荐(1) 编辑

流式处理框架摘要大纲

摘要: 一、流式处理框架对比 关注点:运行时和编程模型、容错性、状态管理、消息传输保障等二、Spark 1、Spark基础篇Spark及生态圈概述:包括spark生态系统介绍,以及对应特点、适用场景、Spark与hadoop关系等Spark安装部署 2、Spark核心篇Spark编程模型: RDD概述 RDD实现(作业调度及stage划分、RDD依赖关系、解析器集成、内存管理、检查点... 阅读全文

posted @ 2020-01-08 11:26 心有多大,世界就有多大 阅读(145) 评论(0) 推荐(1) 编辑

2020年1月7日

流式处理框架对比

摘要: 本文转载地址:https://www.cnblogs.com/tgzhu/p/7119477.html    分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析的过程,与MapReduce一样是一种通用计算框架,期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG 阅读全文

posted @ 2020-01-07 19:31 心有多大,世界就有多大 阅读(581) 评论(0) 推荐(0) 编辑

导航