摘要: 大家好,我是大D。 这篇文章跟大家一起聊下数仓中比较容易混淆的两个概念——数据域、主题域。有的公司对 阅读全文
posted @ 2022-11-17 08:43 Data跳动 阅读(1138) 评论(0) 推荐(1) 编辑
摘要: 什么是HBase?终于有人讲明白了 一、初识HBase HBase 是一个面向列式存储的分布式数据库,其设计思想来源于 Google 的 BigTable 论文。HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。HBase 良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能,基于数据副本机制 阅读全文
posted @ 2022-05-30 16:39 Data跳动 阅读(1733) 评论(0) 推荐(1) 编辑
摘要: 万字长文,带你轻松学习 Spark 大家好,我是大D。 今天给大家分享一篇 Spark 核心知识点的梳理,对知识点的讲解秉承着能用图解的就不照本宣科地陈述,力求精简、通俗易懂。希望能为新手的入门学习扫清障碍,从基础概念入手、再到原理深入,由浅入深地轻松掌握 Spark。 1、初识 Spark Spark不仅能够在内存中进行高效运算,还 阅读全文
posted @ 2022-05-21 09:00 Data跳动 阅读(925) 评论(1) 推荐(1) 编辑
摘要: 一文看懂 ZooKeeper ,面试再也不用背八股 ZooKeeper知识点总结 一、ZooKeeper 的工作机制 二、ZooKeeper 中的 ZAB 协议 三、数据模型与监听器 四、ZooKeeper 的选举机制和流程 本文将以如下内容为主线讲解ZooKeeper中的学习重点,包括 ZooKeeper 中的角色、ZAB协议、数据模型、选举机制、 阅读全文
posted @ 2022-05-20 18:47 Data跳动 阅读(936) 评论(0) 推荐(0) 编辑
摘要: 一文带你搞懂 Kafka 的系统架构(深度好文,值得收藏) Kafka 简介 Kafka 是一种高吞吐、分布式、基于发布和订阅模型的消息系统,最初是由 LinkedIn 公司采用 Scala 和 java 开发的开源流处理软件平台,目前是 Apache 的开源项目。 Kafka 用于离线和在线消息的消费,将消息数据按顺序保存在磁盘上,并在集群内以副本的形式存 阅读全文
posted @ 2022-05-20 17:05 Data跳动 阅读(2186) 评论(2) 推荐(2) 编辑
摘要: 图文详解 HDFS 的工作机制及其原理 大家好,我是大D。 今天开始给大家分享关于大数据入门技术栈——Hadoop的学习内容。 初识 Hadoop 为了解决大数据中海量数据的存储与计算问题,Hadoop 提供了一套分布式系统基础架构,核心内容包含HDFS ( Hadoop Distributed File System, 分布式文件系统) 阅读全文
posted @ 2022-05-19 11:10 Data跳动 阅读(1065) 评论(0) 推荐(1) 编辑
摘要: 聊一聊 HBase 是如何写入数据的? i,大家好,我是大D。今天继续了解下 HBase 是如何写入数据的,然后再讲解一下一个比较经典的面试题。 阅读全文
posted @ 2022-05-18 14:47 Data跳动 阅读(362) 评论(0) 推荐(0) 编辑
摘要: 为什么列式存储会被广泛用在 OLAP 中? 大家好,我是大D。 不知是否有小伙伴们疑问,为什么列式存储会广泛地应用在 OLAP 领域,和行式存储相比,它的优势在哪里?今天我们一起来对比下这两种存储方式的差别。 其实,列式存储并不是一项新技术,最早可以追溯到 1983 年的论文 Cantor。然而,受限于早期的硬件条件和应用场景,传统的事务型数 阅读全文
posted @ 2022-05-17 17:16 Data跳动 阅读(700) 评论(0) 推荐(1) 编辑
摘要: 一文带你读懂 Hbase 的架构组成 hi,大家好,我是大D。今天咱们继续深挖一下 HBase 的架构组成。 Hbase 作为 NoSQL 数据库的代表,属于三驾马车之一 BigTable 的对应实现,HBase 的出现很好地弥补了大数据快速查询能力的空缺。在前面咱们也有介绍过 HBase 的数据模型,感兴趣的小伙伴可以翻看下。谈谈你对 阅读全文
posted @ 2022-05-16 12:25 Data跳动 阅读(587) 评论(4) 推荐(0) 编辑