大数据基础 - 随笔分类(第3页) - 数据驱动

大数据基础---基于Zookeeper搭建Spark高可用集群

摘要：一、集群规划这里搭建一个 3 节点的 Spark 集群，其中三台主机上均部署 Worker 服务。同时为了保证高可用，除了在 hadoop001 上部署主 Master 服务外，还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务，Master 服务由 Zooke 阅读全文

posted @ 2020-06-26 10:20 数据驱动阅读(353) 评论(0) 推荐(0)

大数据基础---Spark累加器与广播变量

摘要：一、简介在 Spark 中，提供了两种类型的共享变量：累加器 (accumulator) 与广播变量 (broadcast variable)：累加器：用来对信息进行聚合，主要用于累计计数等场景；广播变量：主要用于在节点间高效分发大对象。二、累加器这里先看一个具体的场景，对于正常的累计求和阅读全文

posted @ 2020-06-26 09:56 数据驱动阅读(263) 评论(0) 推荐(0)

大数据基础---Spark部署模式与作业提交

摘要：一、作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业，其格式如下： ./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的阅读全文

posted @ 2020-06-26 09:10 数据驱动阅读(469) 评论(0) 推荐(0)

大数据基础---Spark_Transformation和Action算子

摘要：一、Transformation spark 常用的 Transformation 算子如下表： Transformation 算子 Meaning（含义） map(func) 对原 RDD 中每个元素运用 func 函数，并生成新的 RDD filter(func) 对原 RDD 中每个元素使用f 阅读全文

posted @ 2020-06-26 00:00 数据驱动阅读(347) 评论(0) 推荐(0)

大数据基础---Spark_RDD

摘要：一、RDD简介 RDD 全称为 Resilient Distributed Datasets，是 Spark 最基本的数据抽象，它是只读的、分区记录的集合，支持并行操作，可以由外部数据集或其他 RDD 转换而来，它具有以下特性：一个 RDD 由一个或者多个分区（Partitions）组成。对于 R 阅读全文

posted @ 2020-06-25 20:52 数据驱动阅读(300) 评论(0) 推荐(0)

大数据基础---Spark开发环境搭建

摘要：一、安装Spark 1.1 下载并解压官方下载地址：http://spark.apache.org/downloads.html ，选择 Spark 版本和对应的 Hadoop 版本后再下载：解压安装包： # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 阅读全文

posted @ 2020-06-25 19:57 数据驱动阅读(433) 评论(0) 推荐(0)

大数据基础---Spark简介

摘要：一、简介 Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab，2013 年被捐赠给 Apache 软件基金会，2014 年 2 月成为 Apache 的顶级项目。相对于 MapReduce 的批处理计算，Spark 可以带来上百倍的性能提升，因此它成为继 MapReduce 之后，最阅读全文

posted @ 2020-06-25 19:21 数据驱动阅读(684) 评论(0) 推荐(0)

大数据基础---Kafka深入理解分区副本机制

摘要：一、Kafka集群 Kafka 使用 Zookeeper 来维护集群成员 (brokers) 的信息。每个 broker 都有一个唯一标识 broker.id，用于标识自己在集群中的身份，可以在配置文件 server.properties 中进行配置，或者由程序自动生成。下面是 Kafka brok 阅读全文

posted @ 2020-06-24 19:17 数据驱动阅读(1068) 评论(0) 推荐(0)

大数据基础---Kafka消费者详解

摘要：一、消费者和消费者群组在 Kafka 中，消费者通常是消费者群组的一部分，多个消费者群组共同读取同一个主题时，彼此之间互不影响。Kafka 之所以要引入消费者群组这个概念是因为 Kafka 消费者经常会做一些高延迟的操作，比如把数据写到数据库或 HDFS ，或者进行耗时的计算，在这些情况下，单个消阅读全文

posted @ 2020-06-24 18:04 数据驱动阅读(839) 评论(0) 推荐(0)

大数据基础---Kafka生产者详解

摘要：一、生产者发送消息的过程首先介绍一下 Kafka 生产者发送消息的过程： Kafka 会将发送消息包装为 ProducerRecord 对象， ProducerRecord 对象包含了目标主题和要发送的内容，同时还可以指定键和分区。在发送 ProducerRecord 对象前，生产者会先把键和值对阅读全文

posted @ 2020-06-24 17:00 数据驱动阅读(383) 评论(0) 推荐(0)

大数据基础---基于Zookeeper搭建Kafka高可用集群

摘要：一、Zookeeper集群搭建为保证集群高可用，Zookeeper 集群的节点数最好是奇数，最少有三个节点，所以这里搭建一个三个节点的集群。 1.1 下载 & 解压下载对应版本 Zookeeper，这里我下载的版本 3.4.14。官方下载地址：https://archive.apache.org 阅读全文

posted @ 2020-06-24 16:58 数据驱动阅读(323) 评论(0) 推荐(0)

大数据基础---Sqoop基本使用

摘要：一、Sqoop 基本命令 1. 查看所有命令 # sqoop help 2. 查看某条命令的具体使用方法 # sqoop help 命令名二、Sqoop 与 MySQL 1. 查询MySQL所有数据库通常用于 Sqoop 与 MySQL 连通测试： sqoop list-databases \ 阅读全文

posted @ 2020-06-24 12:19 数据驱动阅读(1302) 评论(0) 推荐(0)

大数据基础---Sqoop简介与安装

摘要：一、Sqoop 简介 Sqoop 是一个常用的数据迁移工具，主要用于在不同存储系统之间实现数据的导入与导出：导入数据：从 MySQL，Oracle 等关系型数据库中导入数据到 HDFS、Hive、HBase 等分布式文件存储系统中；导出数据：从分布式文件系统中导出数据到关系数据库中。其原理是阅读全文

posted @ 2020-06-24 11:22 数据驱动阅读(356) 评论(0) 推荐(0)

大数据基础---Flume整合Kafka

摘要：一、背景先说一下，为什么要使用 Flume + Kafka？以实时流处理项目为例，由于采集的数据量可能存在峰值和峰谷，假设是一个电商项目，那么峰值通常出现在秒杀时，这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中，可能就会超过集群的处理能力，这时采用 Kafka 就阅读全文

posted @ 2020-06-24 10:54 数据驱动阅读(841) 评论(0) 推荐(0)

大数据基础---Flume的搭建

摘要：一、下载并解压到指定目录崇尚授人以渔的思想，我说给大家怎么下载就行了，就不直接放连接了，大家可以直接输入官网地址 http://flume.apache.org ，一般在官网的上方或者左边都会有Download按钮，这个在左侧，然后点进去下载想要的版本即可。这个会有点慢，如果嫌弃的化，可以通过相阅读全文

posted @ 2020-06-24 10:38 数据驱动阅读(493) 评论(0) 推荐(0)

大数据基础---Flume 简介及基本使用

摘要：一、Flume简介中文版参考文档 Apache Flume 是一个分布式，高可用的数据收集系统。它可以从不同的数据源收集数据，经过聚合后发送到存储系统中，通常用于日志数据的收集。Flume 分为 NG 和 OG (1.0 之前) 两个版本，NG 在 OG 的基础上进行了完全的重构，是目前使用最为广阅读全文

posted @ 2020-06-24 10:33 数据驱动阅读(3825) 评论(0) 推荐(0)

大数据基础---Spring+Mybatis+Phoenix整合

摘要：一、前言使用 Spring+Mybatis 操作 Phoenix 和操作其他的关系型数据库（如 Mysql，Oracle）在配置上是基本相同的，下面会分别给出 Spring/Spring Boot 整合步骤，完整代码见本仓库： Spring + Mybatis + Phoenix SpringBo 阅读全文

posted @ 2020-06-23 18:31 数据驱动阅读(1110) 评论(0) 推荐(0)

大数据基础---Hbase的SQL中间层_Phoenix

摘要：一、Phoenix简介 Phoenix 是 HBase 的开源 SQL 中间层，它允许你使用标准 JDBC 的方式来操作 HBase 上的数据。在 Phoenix 之前，如果你要访问 HBase，只能调用它的 Java API，但相比于使用一行 SQL 就能实现数据查询，HBase 的 API 还是阅读全文

posted @ 2020-06-23 07:54 数据驱动阅读(379) 评论(0) 推荐(0)

大数据基础---Hbase容灾与备份

摘要：一、前言本文主要介绍 Hbase 常用的三种简单的容灾备份方案，即CopyTable、Export/Import、Snapshot。分别介绍如下：二、CopyTable 2.1 简介 CopyTable可以将现有表的数据复制到新表中，具有以下特点：支持时间区间、row 区间、改变表名称、阅读全文

posted @ 2020-06-22 23:34 数据驱动阅读(905) 评论(0) 推荐(0)

大数据基础---Hbase协处理器详解

摘要：一、简述 Hbase 作为列族数据库最经常被人诟病的特性包括：无法轻易建立“二级索引”，难以执行求和、计数、排序等操作。比如，在旧版本的(<0.92)Hbase 中，统计数据表的总行数，需要使用 Counter 方法，执行一次 MapReduce Job 才能得到。虽然 HBase 在数据存储层阅读全文

posted @ 2020-06-22 22:57 数据驱动阅读(990) 评论(0) 推荐(0)

数据驱动

随笔分类 - 大数据基础

公告