Joey-Wang

2022年3月26日

摘要：第三章 SQL SQL（结构化查询语言）是使用最广泛的数据库查询语言。尽管我们说 SQL 语言是种”查询语言“，但除了数据库查询，它还具有很多其他功能：定义数据结构、修改数据库数据、说明安全性约束条件等。我们将介绍 SQL 的基本结构和概念，SQL 的各种实现可能在一些细节上有所不同，或只支持整阅读全文

posted @ 2022-03-26 05:01 Joey-Wang 阅读(225) 评论(0) 推荐(0)

2022年1月11日

框架汇总

摘要： Hadoop 各组件功能： NameNode：元数据管理、DataNode定位 Secondary NameNode：充当NameNode的备份 DataNode：数据块存储容错机制： NameNode 故障：利用 Secondary NameNode 的FsImage和Editlog恢复，会丢失阅读全文

posted @ 2022-01-11 19:41 Joey-Wang 阅读(133) 评论(0) 推荐(1)

chapter11 图处理系统Giraph

摘要： Giraph利用MapReduce框架，不是基于MapReduce API计算。 1 设计思想已有的图算法库或MapReduce系统不具备下列特点：对图处理算法通用支持大规模图处理自身具备容错能力为图处理进行优化 1.1 数据模型数据结构中通常使用邻接矩阵/邻接表表示图顶点与边的关系：阅读全文

posted @ 2022-01-11 19:37 Joey-Wang 阅读(385) 评论(0) 推荐(0)

chapter10 批流融合系统Flink

摘要： Flink：批流一体化的执行引擎且支持Dataflow模型中定义的批流融合操作 1 设计思想 Flink系统设计思想：以流计算为核心，将有界数据视为无界数据的特例。类似于Storm，Flink将需处理的数据抽象为DataStream形式，使用DAG描述计算过程。不同于Spark，Flink提供内阅读全文

posted @ 2022-01-11 19:34 Joey-Wang 阅读(292) 评论(0) 推荐(0)

chapter9 批流融合基础

摘要： 1 批流融合的背景批处理 🆚 流计算批处理系统适合处理**大批量数据、实时性要求不高**的场景流计算系统适合处理**快速产生的数据、实时性要求高**的场景但是，同一场景可能既有大批量数据、又有快速产生的数据，某些模块实时性要求高，某些模块实时性要求低。因此，批处理与流计算相融合有深刻的应用阅读全文

posted @ 2022-01-11 19:31 Joey-Wang 阅读(315) 评论(0) 推荐(0)

chapter8 流计算系统Spark Streaming

摘要： Spark Streaming实际是Spark核心API的一个扩展，可实现高吞吐量、具有容错机制的实时流数据处理。 Spark Streaming将连续的流数据进行离散化后交给Spark批处理系统，实现了利用批处理系统来支持流计算。 1 设计思想 Storm是一个纯粹的流计算系统，Spark Str 阅读全文

posted @ 2022-01-11 19:29 Joey-Wang 阅读(148) 评论(0) 推荐(0)

chapter7 流计算系统Storm

摘要：批处理：处理的输入数据是静态的，即输入数据在计算开始前已确定流计算：处理的输入数据是动态的，即输入数据在计算开始后才逐步到达流数据：大量、快速、时变并持续到达的数据 Storm 是开源的分布式流计算系统，用于支持实时计算。 1 设计思想与MapReduce、Spark等批处理系统不同，Stor 阅读全文

posted @ 2022-01-11 19:26 Joey-Wang 阅读(204) 评论(0) 推荐(0)

chapter6 协调服务系统 Zookeeper

摘要： [TOC] ZooKeeper：轻量级的分布式系统，用于解决分布式应用中通用的协作问题。 ## 1 设计思想 1. MapReduce1.0 架构的 JobTracker 故障： - 重新启动 JobTracker，所有作业需要重新执行 - MapReduce1.0 没有处理 JobTracker 阅读全文

posted @ 2022-01-11 19:24 Joey-Wang 阅读(86) 评论(0) 推荐(0)

chapter5 资源管理系统Yarn

摘要： Yarn最初就为MapReduce设计的资源管理器。后逐步成为一个通用的资源管理系统，为上层应用提供统一的资源管理和调度。 1 设计思想 1.1 作业与资源管理第一代MapReduce架构的缺陷：资源管理和作业管理紧密耦合（都由JobTracker负责）。但资源管理与具体的作业无关。作业的控阅读全文

posted @ 2022-01-11 19:21 Joey-Wang 阅读(255) 评论(0) 推荐(0)

chapter4 批处理系统Spark

摘要： Spark最初的设计目标是基于内存计算的大数据批处理系统，用于构建大型的、低延迟的数据分析应用程序。 Spark从最初仅使用内存的批处理系统，转为内外存同时使用的批处理系统，增加 Spark Streaming 支持实时流计算，Structured Streaming 支持批流融合，也提供机器学习工阅读全文

posted @ 2022-01-11 19:18 Joey-Wang 阅读(265) 评论(0) 推荐(0)

公告