随笔分类 - 大数据知识
摘要:Sqoop 在hadoop和关系型数据库之间转换数据 Flume Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据,如web服务器产生的日志,通过Flume将日志写入到Hadoop的HDFS中 Canal 数据抽取是 ETL 流程的第一步。我们会将数据从 RDB
阅读全文
摘要:1、Spark是什么 Spark是一个高性能内存处理引擎,它提供了基于RDD的数据抽象,能够灵活处理分布式数据集 2、Spark核心概念 RDD:弹性分布式数据集,它是一个只读的、带分区的数据集合,并支持多种分布式算子。由下面5部分构成: 一组partition 每个partition的计算函数 所
阅读全文
摘要:Redis是什么? 1、是一个完全开源免费的key-value内存数据库 2、通常被认为是一个数据结构服务器,主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets Redis用来做什么? 通常局限点来说,Redis也以消息队列的形式存在,作为内嵌的L
阅读全文
摘要:1、MapReduce是一个经典的分布式批处理计算引擎,被广泛应用于搜索引擎索引构建、大规模数据处理等场景中,具有易于编程、良好的扩展性与容错性以及高吞吐率等特点。它主要由两部分组成:编程模型和运行时环境。其中,编程模型为用户提供了非常易用的编程接口,用户只需像编写串行程序一样实现几个简单的函数即可
阅读全文
摘要:1、为了实现一个通用的分布式协调服务,避免每个分布式系统从头实现造成不必要的工作冗余,Hadoop生态系统提供了ZooKeeper。ZooKeeper通过引入类似于文件系统的层级命名空间,并在此基础上提供了一套简单易用的原语,能够帮助用户轻易地实现前面提到leader选举、分布式锁、分布式队列等功能
阅读全文
摘要:Kudu是一个强类型的纯列式存储数据库。类似于HBase,Kudu的表是由很多数据子集构成的,表被水平拆分成多个Tablet(类似于HBase的Region),这些Tablet被散布到不同机器上,以实现分布式的存储和读写。Kudu有两种类型的组件:Master Server和Tablet Serve
阅读全文
摘要:1、HBase数据模型:逻辑数据模型和物理数据存储,其中逻辑数据模型是用户从数据库所看到的模型,直接与HBase数据建模相关;物理数据模型是面向计算机物理表示的模型,描述了HBase数据在存储介质(包括内存和磁盘)上的组织结构。 2、HBase基本架构 为了将数据表分布到集群中以提供并行读写服务,H
阅读全文
摘要:1、HDFS(Hadoop Distributed File System)是一个分布式文件系统,具有良好的扩展性、容错性以及易用的API。它的核心思想是将文件切分成等大的数据块,以多副本的形式存储到多个节点上。HDFS采用了经典的主从软件架构,其中主服务被称为NameNode,管理文件系统的元信息
阅读全文
摘要:全量表:每天的所有写最新状态的数据 1、有无变化,都要报 2、每次上报的数据都是所有的数据(变化的+没有变化的) 增量表:新增的数据 1、增量表,只报变化量,无变化不用报 拉链表: 1、记录一个事物从开始,一直到当前状态的所有变化的信息 2、拉链表每次上报的都是历史记录的最终状态,是记录在当前时候的
阅读全文
摘要:什么是OLAP(联机分析处理) 这个是和数据处理非常相关的一个概念。接触过BI(商务智能的同学一定清楚。数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)
阅读全文

浙公网安备 33010602011771号