Hadoop - 随笔分类 - Karl1

Sqoop

摘要：简介 Sqoop是一款开源工具，主要用于Hadoop（HDFS、Hbase、HIVE）与传统数据库（Mysql、Oracle、Postgresql）间进行数据的传递。它可以将一个关系型数据库中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中背景 Sqoop最早是作阅读全文

posted @ 2021-06-17 22:12 Karl1 阅读(312) 评论(0) 推荐(0)

Hive

摘要：简介 Hive由FaceBook开源用于解决海量结构化日志的数据统计技术 Hive是基与Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行什么是Hive？ Hive是一个翻译器：SQL >Hiv 阅读全文

posted @ 2021-06-01 10:07 Karl1 阅读(90) 评论(0) 推荐(0)

HBase

摘要：HBase Hbase是一个基于HDFS的高可靠、高性能、面向列的分布式数据库，源于Google的BigTable论文。HDFS基于流式数据访问，低时间延迟的数据访问不适用于在HDFS上运行。所以，如果需要实时地随机访问超大规模数据集，使用HBase是更好的选择。 HBase是数据库，但并不像传统的阅读全文

posted @ 2021-04-27 22:20 Karl1 阅读(333) 评论(0) 推荐(0)

Zookeeper

摘要：Zookeeper Zookeeper是一个开源的分布式的、为分布式应用提供协调服务的Apache项目作用：负责存储和管理大家都关系的数据，并接受观察者的注册，一旦这些数据的状态发生变化，zookeeper将通知已经在zookeeper上注册的那些观察者做出响应的反应。（简单来说就是你关注阅读全文

posted @ 2021-04-22 11:35 Karl1 阅读(82) 评论(0) 推荐(0)

Hadoop——YARN

摘要：MapReduce1 架构工作流程局限性 JobTracker有多忙？作业调度（任务安排给TaskTracker）任务进度监控（跟踪任务、重启失败的任务；记录任务流水） JobTracker访问压力大，影响系统扩展性，不适合所有大型计算。主要表现在大型集群上。官方称当节点数达到4000，任务阅读全文

posted @ 2021-04-20 19:40 Karl1 阅读(160) 评论(1) 推荐(1)

CodeZhou

好好学习，天天向上

随笔分类 - Hadoop

公告