上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 15 下一页
摘要: 第三章 SQL SQL(结构化查询语言)是使用最广泛的数据库查询语言。 尽管我们说 SQL 语言是种”查询语言“,但除了数据库查询,它还具有很多其他功能:定义数据结构、修改数据库数据、说明安全性约束条件等。 我们将介绍 SQL 的基本结构和概念,SQL 的各种实现可能在一些细节上有所不同,或只支持整 阅读全文
posted @ 2022-03-26 05:01 Joey-Wang 阅读(213) 评论(0) 推荐(0)
摘要: Hadoop 各组件功能: NameNode:元数据管理、DataNode定位 Secondary NameNode:充当NameNode的备份 DataNode:数据块存储 容错机制: NameNode 故障:利用 Secondary NameNode 的FsImage和Editlog恢复,会丢失 阅读全文
posted @ 2022-01-11 19:41 Joey-Wang 阅读(128) 评论(0) 推荐(1)
摘要: Giraph利用MapReduce框架,不是基于MapReduce API计算。 1 设计思想 已有的图算法库或MapReduce系统不具备下列特点: 对图处理算法通用 支持大规模图处理 自身具备容错能力 为图处理进行优化 1.1 数据模型 数据结构中通常使用邻接矩阵/邻接表表示图顶点与边的关系: 阅读全文
posted @ 2022-01-11 19:37 Joey-Wang 阅读(375) 评论(0) 推荐(0)
摘要: Flink:批流一体化的执行引擎且支持Dataflow模型中定义的批流融合操作 1 设计思想 Flink系统设计思想:以流计算为核心,将有界数据视为无界数据的特例。 类似于Storm,Flink将需处理的数据抽象为DataStream形式,使用DAG描述计算过程。 不同于Spark,Flink提供内 阅读全文
posted @ 2022-01-11 19:34 Joey-Wang 阅读(288) 评论(0) 推荐(0)
摘要: 1 批流融合的背景 批处理 🆚 流计算 批处理系统适合处理**大批量数据、实时性要求不高**的场景 流计算系统适合处理**快速产生的数据、实时性要求高**的场景 但是,同一场景可能既有大批量数据、又有快速产生的数据,某些模块实时性要求高,某些模块实时性要求低。因此,批处理与流计算相融合有深刻的应用 阅读全文
posted @ 2022-01-11 19:31 Joey-Wang 阅读(309) 评论(0) 推荐(0)
摘要: Spark Streaming实际是Spark核心API的一个扩展,可实现高吞吐量、具有容错机制的实时流数据处理。 Spark Streaming将连续的流数据进行离散化后交给Spark批处理系统,实现了利用批处理系统来支持流计算。 1 设计思想 Storm是一个纯粹的流计算系统,Spark Str 阅读全文
posted @ 2022-01-11 19:29 Joey-Wang 阅读(145) 评论(0) 推荐(0)
摘要: 批处理:处理的输入数据是静态的,即输入数据在计算开始前已确定 流计算:处理的输入数据是动态的,即输入数据在计算开始后才逐步到达 流数据:大量、快速、时变并持续到达的数据 Storm 是开源的分布式流计算系统,用于支持实时计算。 1 设计思想 与MapReduce、Spark等批处理系统不同,Stor 阅读全文
posted @ 2022-01-11 19:26 Joey-Wang 阅读(204) 评论(0) 推荐(0)
摘要: [TOC] ZooKeeper:轻量级的分布式系统,用于解决分布式应用中通用的协作问题。 ## 1 设计思想 1. MapReduce1.0 架构的 JobTracker 故障: - 重新启动 JobTracker,所有作业需要重新执行 - MapReduce1.0 没有处理 JobTracker 阅读全文
posted @ 2022-01-11 19:24 Joey-Wang 阅读(84) 评论(0) 推荐(0)
摘要: Yarn最初就为MapReduce设计的资源管理器。 后逐步成为一个通用的资源管理系统,为上层应用提供统一的资源管理和调度。 1 设计思想 1.1 作业与资源管理 第一代MapReduce架构的缺陷: 资源管理和作业管理紧密耦合(都由JobTracker负责)。但资源管理与具体的作业无关。 作业的控 阅读全文
posted @ 2022-01-11 19:21 Joey-Wang 阅读(251) 评论(0) 推荐(0)
摘要: Spark最初的设计目标是基于内存计算的大数据批处理系统,用于构建大型的、低延迟的数据分析应用程序。 Spark从最初仅使用内存的批处理系统,转为内外存同时使用的批处理系统,增加 Spark Streaming 支持实时流计算,Structured Streaming 支持批流融合,也提供机器学习工 阅读全文
posted @ 2022-01-11 19:18 Joey-Wang 阅读(257) 评论(0) 推荐(0)
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 15 下一页