会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Joey-Wang
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
5
6
7
8
9
10
11
12
13
···
15
下一页
2022年3月26日
《数据库系统概念》第三章
摘要: 第三章 SQL SQL(结构化查询语言)是使用最广泛的数据库查询语言。 尽管我们说 SQL 语言是种”查询语言“,但除了数据库查询,它还具有很多其他功能:定义数据结构、修改数据库数据、说明安全性约束条件等。 我们将介绍 SQL 的基本结构和概念,SQL 的各种实现可能在一些细节上有所不同,或只支持整
阅读全文
posted @ 2022-03-26 05:01 Joey-Wang
阅读(213)
评论(0)
推荐(0)
2022年1月11日
框架汇总
摘要: Hadoop 各组件功能: NameNode:元数据管理、DataNode定位 Secondary NameNode:充当NameNode的备份 DataNode:数据块存储 容错机制: NameNode 故障:利用 Secondary NameNode 的FsImage和Editlog恢复,会丢失
阅读全文
posted @ 2022-01-11 19:41 Joey-Wang
阅读(128)
评论(0)
推荐(1)
chapter11 图处理系统Giraph
摘要: Giraph利用MapReduce框架,不是基于MapReduce API计算。 1 设计思想 已有的图算法库或MapReduce系统不具备下列特点: 对图处理算法通用 支持大规模图处理 自身具备容错能力 为图处理进行优化 1.1 数据模型 数据结构中通常使用邻接矩阵/邻接表表示图顶点与边的关系:
阅读全文
posted @ 2022-01-11 19:37 Joey-Wang
阅读(375)
评论(0)
推荐(0)
chapter10 批流融合系统Flink
摘要: Flink:批流一体化的执行引擎且支持Dataflow模型中定义的批流融合操作 1 设计思想 Flink系统设计思想:以流计算为核心,将有界数据视为无界数据的特例。 类似于Storm,Flink将需处理的数据抽象为DataStream形式,使用DAG描述计算过程。 不同于Spark,Flink提供内
阅读全文
posted @ 2022-01-11 19:34 Joey-Wang
阅读(288)
评论(0)
推荐(0)
chapter9 批流融合基础
摘要: 1 批流融合的背景 批处理 🆚 流计算 批处理系统适合处理**大批量数据、实时性要求不高**的场景 流计算系统适合处理**快速产生的数据、实时性要求高**的场景 但是,同一场景可能既有大批量数据、又有快速产生的数据,某些模块实时性要求高,某些模块实时性要求低。因此,批处理与流计算相融合有深刻的应用
阅读全文
posted @ 2022-01-11 19:31 Joey-Wang
阅读(309)
评论(0)
推荐(0)
chapter8 流计算系统Spark Streaming
摘要: Spark Streaming实际是Spark核心API的一个扩展,可实现高吞吐量、具有容错机制的实时流数据处理。 Spark Streaming将连续的流数据进行离散化后交给Spark批处理系统,实现了利用批处理系统来支持流计算。 1 设计思想 Storm是一个纯粹的流计算系统,Spark Str
阅读全文
posted @ 2022-01-11 19:29 Joey-Wang
阅读(145)
评论(0)
推荐(0)
chapter7 流计算系统Storm
摘要: 批处理:处理的输入数据是静态的,即输入数据在计算开始前已确定 流计算:处理的输入数据是动态的,即输入数据在计算开始后才逐步到达 流数据:大量、快速、时变并持续到达的数据 Storm 是开源的分布式流计算系统,用于支持实时计算。 1 设计思想 与MapReduce、Spark等批处理系统不同,Stor
阅读全文
posted @ 2022-01-11 19:26 Joey-Wang
阅读(204)
评论(0)
推荐(0)
chapter6 协调服务系统 Zookeeper
摘要: [TOC] ZooKeeper:轻量级的分布式系统,用于解决分布式应用中通用的协作问题。 ## 1 设计思想 1. MapReduce1.0 架构的 JobTracker 故障: - 重新启动 JobTracker,所有作业需要重新执行 - MapReduce1.0 没有处理 JobTracker
阅读全文
posted @ 2022-01-11 19:24 Joey-Wang
阅读(84)
评论(0)
推荐(0)
chapter5 资源管理系统Yarn
摘要: Yarn最初就为MapReduce设计的资源管理器。 后逐步成为一个通用的资源管理系统,为上层应用提供统一的资源管理和调度。 1 设计思想 1.1 作业与资源管理 第一代MapReduce架构的缺陷: 资源管理和作业管理紧密耦合(都由JobTracker负责)。但资源管理与具体的作业无关。 作业的控
阅读全文
posted @ 2022-01-11 19:21 Joey-Wang
阅读(251)
评论(0)
推荐(0)
chapter4 批处理系统Spark
摘要: Spark最初的设计目标是基于内存计算的大数据批处理系统,用于构建大型的、低延迟的数据分析应用程序。 Spark从最初仅使用内存的批处理系统,转为内外存同时使用的批处理系统,增加 Spark Streaming 支持实时流计算,Structured Streaming 支持批流融合,也提供机器学习工
阅读全文
posted @ 2022-01-11 19:18 Joey-Wang
阅读(257)
评论(0)
推荐(0)
上一页
1
···
5
6
7
8
9
10
11
12
13
···
15
下一页
公告