随笔分类 -  大数据基础

摘要:一、集群规划 这里搭建一个 3 节点的 Spark 集群,其中三台主机上均部署 Worker 服务。同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务,Master 服务由 Zooke 阅读全文
posted @ 2020-06-26 10:20 数据驱动 阅读(353) 评论(0) 推荐(0)
摘要:一、简介 在 Spark 中,提供了两种类型的共享变量:累加器 (accumulator) 与广播变量 (broadcast variable): 累加器:用来对信息进行聚合,主要用于累计计数等场景; 广播变量:主要用于在节点间高效分发大对象。 二、累加器 这里先看一个具体的场景,对于正常的累计求和 阅读全文
posted @ 2020-06-26 09:56 数据驱动 阅读(263) 评论(0) 推荐(0)
摘要:一、作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的 阅读全文
posted @ 2020-06-26 09:10 数据驱动 阅读(469) 评论(0) 推荐(0)
摘要:一、Transformation spark 常用的 Transformation 算子如下表: Transformation 算子 Meaning(含义) map(func) 对原 RDD 中每个元素运用 func 函数,并生成新的 RDD filter(func) 对原 RDD 中每个元素使用f 阅读全文
posted @ 2020-06-26 00:00 数据驱动 阅读(345) 评论(0) 推荐(0)
摘要:一、RDD简介 RDD 全称为 Resilient Distributed Datasets,是 Spark 最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特性: 一个 RDD 由一个或者多个分区(Partitions)组成。对于 R 阅读全文
posted @ 2020-06-25 20:52 数据驱动 阅读(300) 评论(0) 推荐(0)
摘要:一、安装Spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包: # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 阅读全文
posted @ 2020-06-25 19:57 数据驱动 阅读(433) 评论(0) 推荐(0)
摘要:一、简介 Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apache 的顶级项目。相对于 MapReduce 的批处理计算,Spark 可以带来上百倍的性能提升,因此它成为继 MapReduce 之后,最 阅读全文
posted @ 2020-06-25 19:21 数据驱动 阅读(684) 评论(0) 推荐(0)
摘要:一、Kafka集群 Kafka 使用 Zookeeper 来维护集群成员 (brokers) 的信息。每个 broker 都有一个唯一标识 broker.id,用于标识自己在集群中的身份,可以在配置文件 server.properties 中进行配置,或者由程序自动生成。下面是 Kafka brok 阅读全文
posted @ 2020-06-24 19:17 数据驱动 阅读(1068) 评论(0) 推荐(0)
摘要:一、消费者和消费者群组 在 Kafka 中,消费者通常是消费者群组的一部分,多个消费者群组共同读取同一个主题时,彼此之间互不影响。Kafka 之所以要引入消费者群组这个概念是因为 Kafka 消费者经常会做一些高延迟的操作,比如把数据写到数据库或 HDFS ,或者进行耗时的计算,在这些情况下,单个消 阅读全文
posted @ 2020-06-24 18:04 数据驱动 阅读(837) 评论(0) 推荐(0)
摘要:一、生产者发送消息的过程 首先介绍一下 Kafka 生产者发送消息的过程: Kafka 会将发送消息包装为 ProducerRecord 对象, ProducerRecord 对象包含了目标主题和要发送的内容,同时还可以指定键和分区。在发送 ProducerRecord 对象前,生产者会先把键和值对 阅读全文
posted @ 2020-06-24 17:00 数据驱动 阅读(383) 评论(0) 推荐(0)
摘要:一、Zookeeper集群搭建 为保证集群高可用,Zookeeper 集群的节点数最好是奇数,最少有三个节点,所以这里搭建一个三个节点的集群。 1.1 下载 & 解压 下载对应版本 Zookeeper,这里我下载的版本 3.4.14。官方下载地址:https://archive.apache.org 阅读全文
posted @ 2020-06-24 16:58 数据驱动 阅读(323) 评论(0) 推荐(0)
摘要:一、Sqoop 基本命令 1. 查看所有命令 # sqoop help 2. 查看某条命令的具体使用方法 # sqoop help 命令名 二、Sqoop 与 MySQL 1. 查询MySQL所有数据库 通常用于 Sqoop 与 MySQL 连通测试: sqoop list-databases \ 阅读全文
posted @ 2020-06-24 12:19 数据驱动 阅读(1300) 评论(0) 推荐(0)
摘要:一、Sqoop 简介 Sqoop 是一个常用的数据迁移工具,主要用于在不同存储系统之间实现数据的导入与导出: 导入数据:从 MySQL,Oracle 等关系型数据库中导入数据到 HDFS、Hive、HBase 等分布式文件存储系统中; 导出数据:从 分布式文件系统中导出数据到关系数据库中。 其原理是 阅读全文
posted @ 2020-06-24 11:22 数据驱动 阅读(356) 评论(0) 推荐(0)
摘要:一、背景 先说一下,为什么要使用 Flume + Kafka? 以实时流处理项目为例,由于采集的数据量可能存在峰值和峰谷,假设是一个电商项目,那么峰值通常出现在秒杀时,这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中,可能就会超过集群的处理能力,这时采用 Kafka 就 阅读全文
posted @ 2020-06-24 10:54 数据驱动 阅读(840) 评论(0) 推荐(0)
摘要:一、下载并解压到指定目录 崇尚授人以渔的思想,我说给大家怎么下载就行了,就不直接放连接了,大家可以直接输入官网地址 http://flume.apache.org ,一般在官网的上方或者左边都会有Download按钮,这个在左侧,然后点进去下载想要的版本即可。 这个会有点慢,如果嫌弃的化,可以通过相 阅读全文
posted @ 2020-06-24 10:38 数据驱动 阅读(493) 评论(0) 推荐(0)
摘要:一、Flume简介 中文版参考文档 Apache Flume 是一个分布式,高可用的数据收集系统。它可以从不同的数据源收集数据,经过聚合后发送到存储系统中,通常用于日志数据的收集。Flume 分为 NG 和 OG (1.0 之前) 两个版本,NG 在 OG 的基础上进行了完全的重构,是目前使用最为广 阅读全文
posted @ 2020-06-24 10:33 数据驱动 阅读(3825) 评论(0) 推荐(0)
摘要:一、前言 使用 Spring+Mybatis 操作 Phoenix 和操作其他的关系型数据库(如 Mysql,Oracle)在配置上是基本相同的,下面会分别给出 Spring/Spring Boot 整合步骤,完整代码见本仓库: Spring + Mybatis + Phoenix SpringBo 阅读全文
posted @ 2020-06-23 18:31 数据驱动 阅读(1109) 评论(0) 推荐(0)
摘要:一、Phoenix简介 Phoenix 是 HBase 的开源 SQL 中间层,它允许你使用标准 JDBC 的方式来操作 HBase 上的数据。在 Phoenix 之前,如果你要访问 HBase,只能调用它的 Java API,但相比于使用一行 SQL 就能实现数据查询,HBase 的 API 还是 阅读全文
posted @ 2020-06-23 07:54 数据驱动 阅读(378) 评论(0) 推荐(0)
摘要:一、前言 本文主要介绍 Hbase 常用的三种简单的容灾备份方案,即CopyTable、Export/Import、Snapshot。分别介绍如下: 二、CopyTable 2.1 简介 CopyTable可以将现有表的数据复制到新表中,具有以下特点: 支持时间区间 、row 区间 、改变表名称 、 阅读全文
posted @ 2020-06-22 23:34 数据驱动 阅读(905) 评论(0) 推荐(0)
摘要:一、简述 Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执 行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需 要使用 Counter 方法,执行一次 MapReduce Job 才能得到。虽然 HBase 在数据存储层 阅读全文
posted @ 2020-06-22 22:57 数据驱动 阅读(988) 评论(0) 推荐(0)