随笔分类 - Hadoop
摘要:简介 Sqoop是一款开源工具,主要用于Hadoop(HDFS、Hbase、HIVE)与传统数据库(Mysql、Oracle、Postgresql)间进行数据的传递。 它可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中 背景 Sqoop最早是作
阅读全文
摘要:简介 Hive由FaceBook开源用于解决海量结构化日志的数据统计技术 Hive是基与Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行 什么是Hive? Hive是一个翻译器:SQL >Hiv
阅读全文
摘要:HBase Hbase是一个基于HDFS的高可靠、高性能、面向列的分布式数据库,源于Google的BigTable论文。HDFS基于流式数据访问,低时间延迟的数据访问不适用于在HDFS上运行。所以,如果需要实时地随机访问超大规模数据集,使用HBase是更好的选择。 HBase是数据库,但并不像传统的
阅读全文
摘要:Zookeeper Zookeeper是一个开源的分布式的、为分布式应用提供协调服务的Apache项目 作用: 负责存储和管理大家都关系的数据,并接受观察者的注册,一旦这些数据的状态发生变化,zookeeper将通知已经在zookeeper上注册的那些观察者做出响应的反应。 (简单来说就是你关注
阅读全文
摘要:MapReduce1 架构 工作流程 局限性 JobTracker有多忙? 作业调度(任务安排给TaskTracker) 任务进度监控(跟踪任务、重启失败的任务;记录任务流水) JobTracker访问压力大,影响系统扩展性,不适合所有大型计算。主要表现在大型集群上。官方称当节点数达到4000,任务
阅读全文

浙公网安备 33010602011771号