摘要: Hadoop 各组件功能: NameNode:元数据管理、DataNode定位 Secondary NameNode:充当NameNode的备份 DataNode:数据块存储 容错机制: NameNode 故障:利用 Secondary NameNode 的FsImage和Editlog恢复,会丢失 阅读全文
posted @ 2022-01-11 19:41 Joey-Wang 阅读(122) 评论(0) 推荐(1)
摘要: Giraph利用MapReduce框架,不是基于MapReduce API计算。 1 设计思想 已有的图算法库或MapReduce系统不具备下列特点: 对图处理算法通用 支持大规模图处理 自身具备容错能力 为图处理进行优化 1.1 数据模型 数据结构中通常使用邻接矩阵/邻接表表示图顶点与边的关系: 阅读全文
posted @ 2022-01-11 19:37 Joey-Wang 阅读(361) 评论(0) 推荐(0)
摘要: Flink:批流一体化的执行引擎且支持Dataflow模型中定义的批流融合操作 1 设计思想 Flink系统设计思想:以流计算为核心,将有界数据视为无界数据的特例。 类似于Storm,Flink将需处理的数据抽象为DataStream形式,使用DAG描述计算过程。 不同于Spark,Flink提供内 阅读全文
posted @ 2022-01-11 19:34 Joey-Wang 阅读(277) 评论(0) 推荐(0)
摘要: 1 批流融合的背景 批处理 🆚 流计算 批处理系统适合处理**大批量数据、实时性要求不高**的场景 流计算系统适合处理**快速产生的数据、实时性要求高**的场景 但是,同一场景可能既有大批量数据、又有快速产生的数据,某些模块实时性要求高,某些模块实时性要求低。因此,批处理与流计算相融合有深刻的应用 阅读全文
posted @ 2022-01-11 19:31 Joey-Wang 阅读(300) 评论(0) 推荐(0)
摘要: Spark Streaming实际是Spark核心API的一个扩展,可实现高吞吐量、具有容错机制的实时流数据处理。 Spark Streaming将连续的流数据进行离散化后交给Spark批处理系统,实现了利用批处理系统来支持流计算。 1 设计思想 Storm是一个纯粹的流计算系统,Spark Str 阅读全文
posted @ 2022-01-11 19:29 Joey-Wang 阅读(135) 评论(0) 推荐(0)
摘要: 批处理:处理的输入数据是静态的,即输入数据在计算开始前已确定 流计算:处理的输入数据是动态的,即输入数据在计算开始后才逐步到达 流数据:大量、快速、时变并持续到达的数据 Storm 是开源的分布式流计算系统,用于支持实时计算。 1 设计思想 与MapReduce、Spark等批处理系统不同,Stor 阅读全文
posted @ 2022-01-11 19:26 Joey-Wang 阅读(201) 评论(0) 推荐(0)
摘要: [TOC] ZooKeeper:轻量级的分布式系统,用于解决分布式应用中通用的协作问题。 ## 1 设计思想 1. MapReduce1.0 架构的 JobTracker 故障: - 重新启动 JobTracker,所有作业需要重新执行 - MapReduce1.0 没有处理 JobTracker 阅读全文
posted @ 2022-01-11 19:24 Joey-Wang 阅读(83) 评论(0) 推荐(0)
摘要: Yarn最初就为MapReduce设计的资源管理器。 后逐步成为一个通用的资源管理系统,为上层应用提供统一的资源管理和调度。 1 设计思想 1.1 作业与资源管理 第一代MapReduce架构的缺陷: 资源管理和作业管理紧密耦合(都由JobTracker负责)。但资源管理与具体的作业无关。 作业的控 阅读全文
posted @ 2022-01-11 19:21 Joey-Wang 阅读(245) 评论(0) 推荐(0)
摘要: Spark最初的设计目标是基于内存计算的大数据批处理系统,用于构建大型的、低延迟的数据分析应用程序。 Spark从最初仅使用内存的批处理系统,转为内外存同时使用的批处理系统,增加 Spark Streaming 支持实时流计算,Structured Streaming 支持批流融合,也提供机器学习工 阅读全文
posted @ 2022-01-11 19:18 Joey-Wang 阅读(246) 评论(0) 推荐(0)
摘要: MapReduce指Hadoop项目中的MapReduce。 MapReduce 主要用于处理大批量的静态数据。——批处理系统 静态数据指计算开始前这些数据就已经确定。 1 设计思想 1.1 MPI与MapReduce MapReduce出现前,程序员使用MPI并行处理数据。MPI是一个信息传递接口 阅读全文
posted @ 2022-01-11 19:15 Joey-Wang 阅读(315) 评论(0) 推荐(0)
摘要: Doug Cutting 根据 GFS 和 MapReduce 的思想创建了开源的 Hadoop 项目。 通常认为 Hadoop 项目是 Google 发表的学术论文 GFS 和 MapReduce 的开源实现。 Hadoop的核心是分布式文件系统HDFS和MapReduce。 1 设计思想 分布式 阅读全文
posted @ 2022-01-11 19:03 Joey-Wang 阅读(98) 评论(0) 推荐(0)
摘要: 1 分布式系统 分布式系统的定义 分布式系统的定义:若干独立计算机的集合,对用户来说**就像一个单机的系统**。 分布式系统常常通过一个”软件层“组织,此”软件层“在逻辑上位于高层(由用户和应用程序组成)与低层(操作系统组成)之间。因此这样的分布式系统又称为中间件。 分布式系统的类型 基于计算机构建 阅读全文
posted @ 2022-01-11 18:54 Joey-Wang 阅读(100) 评论(0) 推荐(0)
摘要: 参考:Clion远程调试C++ Clion远程调试的两种方法: Clion本地与服务器端代码同步后,服务器端通过gdbserver监听端口,本地Clion连接调试 Clion通过Toolchains实现远端执行调试 (方法一未实践,感觉略繁琐,此处使用方法二) 1 下载ClickHouse代码 此处 阅读全文
posted @ 2022-01-11 18:48 Joey-Wang 阅读(1469) 评论(0) 推荐(0)