上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 37 下一页
摘要: 一、ZooKeeper概述 Apache ZooKeeper 是一个集中式服务,用于维护配置信息、命名、提供分布式同步和提供组服务,ZooKeeper 致力于开发和维护一个开源服务器,以实现高度可靠的分布式协调,其实也可以认为就是一个分布式数据库,只是结构比较特殊,是树状结构。官网文档:https: 阅读全文
posted @ 2022-05-26 23:39 大数据老司机 阅读(561) 评论(0) 推荐(2)
摘要: 一、概述 EFAK(Eagle For Apache Kafka,以前称为 Kafka Eagle)是一款由国内公司开源的Kafka集群监控系统,可以用来监视kafka集群的broker状态、Topic信息、IO、内存、consumer线程、偏移量等信息,并进行可视化图表展示。独特的KQL还可以通过 阅读全文
posted @ 2022-05-26 00:29 大数据老司机 阅读(3159) 评论(0) 推荐(2)
摘要: 要实现这个示例,必须先安装好hadoop和hive环境,环境部署可以参考我之前的文章: 大数据Hadoop原理介绍+安装+实战操作(HDFS+YARN+MapReduce) 大数据Hadoop之——数据仓库Hive 【流程图如下】 【示例代码如下】 #!/usr/bin/env python # - 阅读全文
posted @ 2022-05-24 22:39 大数据老司机 阅读(1698) 评论(0) 推荐(0)
摘要: 一、概述 DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS) 阅读全文
posted @ 2022-05-23 22:32 大数据老司机 阅读(2982) 评论(0) 推荐(0)
摘要: 一、概述 Apache Sqoop(SQL-to-Hadoop)项目旨在协助RDBMS(Relational Database Management System:关系型数据库管理系统)与Hadoop之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Had 阅读全文
posted @ 2022-05-22 20:40 大数据老司机 阅读(1173) 评论(0) 推荐(0)
摘要: 一、Apache Pig概述 Apache PIG提供一套高级语言平台,用于对结构化与非结构化数据集进行操作与分析。这种语言被称为Pig Latin,其属于一种脚本形式,可直接立足于PIG shell执行或者通过Pig Server进行触发。用户所创建的脚本会在初始阶段由Pig Latin处理引擎进 阅读全文
posted @ 2022-05-22 18:35 大数据老司机 阅读(1247) 评论(0) 推荐(0)
摘要: 一、概述 Oozie是一个基于工作流引擎的开源框架,依赖于MapReduce来实现,是一个管理 Apache Hadoop 作业的工作流调度系统。是由Cloudera公司贡献给Apache的,它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。Oozie需要部署到Java 阅读全文
posted @ 2022-05-21 19:11 大数据老司机 阅读(2382) 评论(0) 推荐(0)
摘要: 一、概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作 阅读全文
posted @ 2022-05-20 21:45 大数据老司机 阅读(3227) 评论(0) 推荐(0)
摘要: 一、概述 Impala 直接针对存储在 HDFS、HBase或 Amazon Simple Storage Service (S3)中的 Apache Hadoop 数据提供快速的交互式 SQL 查询。Impala是一个基于Hive、分布式、大规模并行处理(MPP:Massively Paralle 阅读全文
posted @ 2022-05-19 23:43 大数据老司机 阅读(1064) 评论(0) 推荐(0)
摘要: 一、概述 在众多 Hadoop 版本中, CDH(Cloudera Hadoop) 是 Hadoop 众多分支中比较出色的版本, 它由Cloudera 发行和维护。CDH 基于 Apache 的 Hadoop 进行重新构建,提供了基于 Web 页面的群集部署和管理操作。Hadoop发行版除了社区的A 阅读全文
posted @ 2022-05-18 22:25 大数据老司机 阅读(5664) 评论(0) 推荐(0)
上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 37 下一页