大数据知识 - 随笔分类 - Z张不错

大数据图谱

摘要：Sqoop 在hadoop和关系型数据库之间转换数据 Flume Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据，如web服务器产生的日志，通过Flume将日志写入到Hadoop的HDFS中 Canal 数据抽取是 ETL 流程的第一步。我们会将数据从 RDB 阅读全文

posted @ 2020-09-08 15:27 Z张不错阅读(472) 评论(0) 推荐(0)

Spark

摘要：1、Spark是什么 Spark是一个高性能内存处理引擎，它提供了基于RDD的数据抽象，能够灵活处理分布式数据集 2、Spark核心概念 RDD：弹性分布式数据集，它是一个只读的、带分区的数据集合，并支持多种分布式算子。由下面5部分构成：一组partition 每个partition的计算函数所阅读全文

posted @ 2020-07-06 18:52 Z张不错阅读(216) 评论(0) 推荐(0)

Redis

摘要：Redis是什么？ 1、是一个完全开源免费的key-value内存数据库 2、通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets Redis用来做什么？通常局限点来说，Redis也以消息队列的形式存在，作为内嵌的L 阅读全文

posted @ 2020-07-01 16:47 Z张不错阅读(192) 评论(0) 推荐(0)

批处理引擎MapReduce

摘要：1、MapReduce是一个经典的分布式批处理计算引擎，被广泛应用于搜索引擎索引构建、大规模数据处理等场景中，具有易于编程、良好的扩展性与容错性以及高吞吐率等特点。它主要由两部分组成：编程模型和运行时环境。其中，编程模型为用户提供了非常易用的编程接口，用户只需像编写串行程序一样实现几个简单的函数即可阅读全文

posted @ 2020-06-23 16:56 Z张不错阅读(409) 评论(0) 推荐(0)

分布式协调服务ZooKeeper

摘要：1、为了实现一个通用的分布式协调服务，避免每个分布式系统从头实现造成不必要的工作冗余，Hadoop生态系统提供了ZooKeeper。ZooKeeper通过引入类似于文件系统的层级命名空间，并在此基础上提供了一套简单易用的原语，能够帮助用户轻易地实现前面提到leader选举、分布式锁、分布式队列等功能阅读全文

posted @ 2020-06-23 16:26 Z张不错阅读(190) 评论(0) 推荐(0)

分布式列式存储系统Kudu

摘要：Kudu是一个强类型的纯列式存储数据库。类似于HBase，Kudu的表是由很多数据子集构成的，表被水平拆分成多个Tablet（类似于HBase的Region），这些Tablet被散布到不同机器上，以实现分布式的存储和读写。Kudu有两种类型的组件：Master Server和Tablet Serve 阅读全文

posted @ 2020-06-23 16:05 Z张不错阅读(475) 评论(0) 推荐(0)

分布式结构化存储系统HBase

摘要：1、HBase数据模型：逻辑数据模型和物理数据存储，其中逻辑数据模型是用户从数据库所看到的模型，直接与HBase数据建模相关；物理数据模型是面向计算机物理表示的模型，描述了HBase数据在存储介质（包括内存和磁盘）上的组织结构。 2、HBase基本架构为了将数据表分布到集群中以提供并行读写服务，H 阅读全文

posted @ 2020-06-23 15:59 Z张不错阅读(186) 评论(0) 推荐(0)

分布式文件系统HDFS

摘要：1、HDFS（Hadoop Distributed File System）是一个分布式文件系统，具有良好的扩展性、容错性以及易用的API。它的核心思想是将文件切分成等大的数据块，以多副本的形式存储到多个节点上。HDFS采用了经典的主从软件架构，其中主服务被称为NameNode，管理文件系统的元信息阅读全文

posted @ 2020-06-18 14:26 Z张不错阅读(391) 评论(0) 推荐(0)

数仓中的全量表、增量表、拉链表、流水表、快照表

摘要：全量表：每天的所有写最新状态的数据 1、有无变化，都要报 2、每次上报的数据都是所有的数据（变化的+没有变化的）增量表：新增的数据 1、增量表，只报变化量，无变化不用报拉链表： 1、记录一个事物从开始，一直到当前状态的所有变化的信息 2、拉链表每次上报的都是历史记录的最终状态，是记录在当前时候的阅读全文

posted @ 2020-04-30 13:24 Z张不错阅读(2038) 评论(0) 推荐(0)

OLAP简介

摘要：什么是OLAP(联机分析处理) 这个是和数据处理非常相关的一个概念。接触过BI(商务智能的同学一定清楚。数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing) 阅读全文

posted @ 2020-04-30 10:50 Z张不错阅读(1282) 评论(0) 推荐(0)

随笔分类 - 大数据知识

公告