java/Java Pyton 大数据 Hadoop Spark

随笔分类 -  大数据存储

摘要:本篇主要讨论的是不同存储结构(主要是LSM-tree和B-tree),它们应对的不同场景,所采用的底层存储结构,以及对应用以提升效率的索引。 所谓数据库,最基础的功能,就是保存数据,并且在需要的时候可以方便地检索到需要的数据。在这个基础上,演化出了不同的数据库系统,以及多种索引机制帮助检索数据。这篇 阅读全文
posted @ 2020-06-04 22:16 zzzzMing 阅读(3188) 评论(0) 推荐(0)
摘要:上一篇讲述了什么是分布式一致性问题,以及它难在哪里,liveness和satefy问题,和FLP impossibility定理。有兴趣的童鞋可以看看 "分布式系统一致性问题与Raft算法(上)" 。 这一节主要介绍raft算法是如何解决分布式系统中一致性问题的。说起raft大家可能比较陌生,但zo 阅读全文
posted @ 2020-03-04 20:24 zzzzMing 阅读(1179) 评论(0) 推荐(0)
摘要:分布式系统一致性难吗?很难,难的哪里?最后又该如何解决。 阅读全文
posted @ 2020-02-28 19:37 zzzzMing 阅读(2336) 评论(0) 推荐(1)
摘要:Spark RPC 框架的运行时序是怎样的呢?让我们深入到它的源码里面去看看~~ 阅读全文
posted @ 2019-02-25 22:37 zzzzMing 阅读(498) 评论(0) 推荐(0)
摘要:如今 Hadoop 成为大数据中最坚固的那一块基石,Yarn 框架功不可没。这次,我们就来看看 Yarn 的内部原理,探究为什么他如此强大。 阅读全文
posted @ 2019-02-17 17:10 zzzzMing 阅读(4356) 评论(2) 推荐(1)
摘要:Spark RPC 框架的运行时序是怎样的呢?让我们深入到它的源码里面去看看~~ 阅读全文
posted @ 2019-01-14 18:07 zzzzMing 阅读(1131) 评论(0) 推荐(2)
摘要:如今 Hadoop 成为大数据中最坚固的那一块基石,Yarn 框架功不可没。这次,我们就来看看 Yarn 的内部原理,探究为什么他如此强大。 阅读全文
posted @ 2019-01-07 16:40 zzzzMing 阅读(2127) 评论(0) 推荐(2)
摘要:我们都知道现在大数据存储用的基本都是 Hdfs ,但在 Hadoop 诞生之前,我们都是如何存储大量数据的呢?这次我们不聊技术架构什么的,而是从技术演化的角度来看看 Hadoop Hdfs。 阅读全文
posted @ 2018-12-18 21:37 zzzzMing 阅读(2766) 评论(2) 推荐(4)
摘要:一. 概述 上一篇我们介绍了如何将数据从mysql抛到kafka,这次我们就专注于利用storm将数据写入到hdfs的过程,由于storm写入hdfs的可定制东西有些多,我们先不从kafka读取,而先自己定义一个Spout数据充当数据源,下章再进行整合。这里默认你是拥有一定的storm知识的基础,起 阅读全文
posted @ 2018-12-12 21:05 zzzzMing 阅读(1455) 评论(0) 推荐(3)
摘要:如何将 Mysql 数据写入 Kafka 呢?我们可以使用一个小工具。。。 阅读全文
posted @ 2018-12-08 21:09 zzzzMing 阅读(4426) 评论(0) 推荐(1)