随笔分类 -  数据

摘要:一 Kafka概述 1.1 Kafka是什么 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2)Kafka最初是由LinkedIn开发, 阅读全文
posted @ 2019-02-06 20:51 JokerQ- 阅读(1372) 评论(0) 推荐(0)
摘要:一、 HBase的 二、基于Hadoop的HBase架构 HBase内置有zookeeper,但一般我们会有其他的Zookeeper集群来监管master和regionserver,Zookeeper通过选举,保证任何时候,集群中只有一个活跃的HMaster,HMaster与HRegionServe 阅读全文
posted @ 2019-01-01 22:00 JokerQ- 阅读(2825) 评论(0) 推荐(0)
摘要:1、Oozie英文翻译 驯象人 2、Oozie简介 一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop Mapreduce、Pig Jobs的任务调度与协调。 Oozie需要部署到Java Servlet容器中运行。 3、Oozie在集群中扮演的角色 定时调度 阅读全文
posted @ 2018-12-29 21:36 JokerQ- 阅读(6148) 评论(0) 推荐(0)
摘要:1、Flume在集群中扮演的角色 Flume、Kafka用来实时进行数据收集,Spark、Storm用来实时处理数据,impala用来实时查询。 2、Flume框架简介 1.1 Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 阅读全文
posted @ 2018-12-29 13:08 JokerQ- 阅读(1025) 评论(0) 推荐(0)
摘要:sqoop(sql-to-hadoop) Apache Sqoop是用来实现结构型数据(如关系数据库)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,同时也借助MapReduce实现了容错。 可以把数据从hdfs倒到mysql 也可以把数据 阅读全文
posted @ 2018-12-13 10:03 JokerQ- 阅读(416) 评论(0) 推荐(0)
摘要:(参考文章:https://www.linuxprobe.com/hadoop-high-available.html) 一、技术背景 影响HDFS集群不可用主要包括以下两种情况:一是NameNode机器宕机,将导致集群不可用,重启NameNode之后才可使用; 二是计划内的NameNode节点软件 阅读全文
posted @ 2018-11-28 16:33 JokerQ- 阅读(4286) 评论(0) 推荐(0)
摘要:3. HDFS的shell(命令行客户端)操作 3.1 HDFS命令行客户端使用 HDFS提供shell命令行客户端,使用方法如下: 3.2 命令行客户端支持的命令参数 [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ... 阅读全文
posted @ 2018-09-25 12:25 JokerQ- 阅读(5286) 评论(0) 推荐(2)
摘要:恢复内容开始 一、HADOOP 1.什么是hadoop HADOOP是apache旗下的一套开源软件平台,HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 HADOOP的核心组件有 ①、HDFS(分布式文件系统) ②、YARN(运算资源调度系统) ③、MAP 阅读全文
posted @ 2018-09-19 22:18 JokerQ- 阅读(461) 评论(0) 推荐(0)
摘要:一.hadoop解决了什么问题 hdfs 解决了海量数据的分布式存储,高可靠,易扩展,高吞吐量mapreduce 解决了海量数据的分析处理,通用性强,易开发,健壮性 yarn 解决了资源管理调度 二.hadoop生态系统 分层次讲解 > 最底层平台 hdfs yarn mapreduce spark 阅读全文
posted @ 2018-07-29 23:25 JokerQ- 阅读(438) 评论(0) 推荐(0)