随笔分类 - 大数据环境部署
摘要:Sqoop 第1章 Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可
阅读全文
摘要:一、 什么是MongoDB ? MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。 MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。 在高负载的情况下,添加更多
阅读全文
摘要:一、 了解Redis (一) Redis历史 2008年,意大利的一家创业公司Merzia推出了一款基于MySQL的网站实时统计系统LLOOGG,然而没过多久该公司的创始人 Salvatore Sanfilippo便对MySQL的性能感到失望,于是他决定亲自为LLOOGG量身定做一个数据库,并于20
阅读全文
摘要:第九章 Docker安装及配置 1、Docker简介 官网查看 2、Docker安装(CentOS) 2.1 系统要求OS requirements To install Docker Engine, you need a maintained version of CentOS 7. Archiv
阅读全文
摘要:第八章 Spark安装及配置 一、Spark简介 官方文档:http://spark.apache.org/ Lightning-fast cluster computing:快如闪电的集群计算。 Apache Spark™ is a unified analytics engine for lar
阅读全文
摘要:Scala是Scalable Language的简写,是一门多范式的编程语言,由联邦理工学院洛桑(EPFL)的Martin Odersky于2001年基于Funnel的工作开始设计,设计初衷是要集成面向对象编程和函数式编程的各种特性。因此Scala是一种面向对象的语言,每个值都是对象。同时Scala
阅读全文
摘要:主要内容: Kafka概述 Kafka集群部署 Kafka与Flume比较 6.1 Kafka概述 6.1.1 消息队列 消息系统负责将数据从一个应用程序传输到另一个应用程序,因此应用程序可以专注于数据本身,而不用担心如何共享它。 消息系统有两种消息模式可用 点对点消息系统 发布 - 订阅(pub-
阅读全文
摘要:主要内容: 了解Flume Flume安装部署 HDFS Sink 5.1 了解Flume 1) Flume概述 Flume是Cloudera提供的一个高可用,高可靠的,分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的
阅读全文
摘要:4.1环境准备 4.1.1 启动Hadoop 4.1.2 安装MySQL 1、安装包 将安装包复制到目录/usr/local/,当前使用版本如下: mysql-5.7.22-linux-glibc2.12-x86_64.tar.gz 解压: #tar xzvf mysql-5.7.22-linux-
阅读全文
摘要:主要内容: HBase简介 Hadoop、HBase和Hive三者关系 启动Hadoop集群 ZooKeeper集群的部署 HBase集群的部署 3.-1 HBase简介 数据模型概述: 1) HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳 2) 每个值是一个
阅读全文
摘要:2.4 分布式文件系统HDFS及其命令 2.4.1 分布式文件系统与HDFS(Distributed File System) 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件
阅读全文
摘要:第2章 大数据处理架构Hadoop In pioneer days they used oxen for heavy pulling, and when one ox couldn’t budge a log,they didn’t try to grow a larger ox. We shoul
阅读全文

浙公网安备 33010602011771号