随笔分类 -  Hadoop

摘要:简介 Sqoop是一款开源工具,主要用于Hadoop(HDFS、Hbase、HIVE)与传统数据库(Mysql、Oracle、Postgresql)间进行数据的传递。 它可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中 背景 Sqoop最早是作 阅读全文
posted @ 2021-06-17 22:12 Karl1 阅读(300) 评论(0) 推荐(0)
摘要:简介 Hive由FaceBook开源用于解决海量结构化日志的数据统计技术 Hive是基与Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行 什么是Hive? Hive是一个翻译器:SQL >Hiv 阅读全文
posted @ 2021-06-01 10:07 Karl1 阅读(82) 评论(0) 推荐(0)
摘要:HBase Hbase是一个基于HDFS的高可靠、高性能、面向列的分布式数据库,源于Google的BigTable论文。HDFS基于流式数据访问,低时间延迟的数据访问不适用于在HDFS上运行。所以,如果需要实时地随机访问超大规模数据集,使用HBase是更好的选择。 HBase是数据库,但并不像传统的 阅读全文
posted @ 2021-04-27 22:20 Karl1 阅读(328) 评论(0) 推荐(0)
摘要:Zookeeper Zookeeper是一个开源的分布式的、为分布式应用提供协调服务的Apache项目 作用: ​ 负责存储和管理大家都关系的数据,并接受观察者的注册,一旦这些数据的状态发生变化,zookeeper将通知已经在zookeeper上注册的那些观察者做出响应的反应。 (简单来说就是你关注 阅读全文
posted @ 2021-04-22 11:35 Karl1 阅读(72) 评论(0) 推荐(0)
摘要:MapReduce1 架构 工作流程 局限性 JobTracker有多忙? 作业调度(任务安排给TaskTracker) 任务进度监控(跟踪任务、重启失败的任务;记录任务流水) JobTracker访问压力大,影响系统扩展性,不适合所有大型计算。主要表现在大型集群上。官方称当节点数达到4000,任务 阅读全文
posted @ 2021-04-20 19:40 Karl1 阅读(151) 评论(1) 推荐(1)