摘要: Sqoop是用来实现结构型数据(如:关系型数据库RDBMS)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,同时也借助MapReduce实现容错。一、将MySQL中的表迁移到HDFS上(RDBMS —> HDFS)导入MySQL"db_sqoop.mysql_emp表"所有数据到HDFS中;sqoop import \--co... 阅读全文
posted @ 2019-03-31 20:04 Lvan灬 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 最近被朋友问到有关于Hive Join的问题,保守回答过后,来补充补充知识; Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。一、Hive支持哪些连接来自官网的截图:二、Hive五种连接INNER JOIN:返回两张表中关联条件为"真"的记录;LEFT JOIN(LEFT OUTER JOIN):返回左表中所有的... 阅读全文
posted @ 2019-03-31 17:54 Lvan灬 阅读(440) 评论(0) 推荐(0) 编辑
摘要: 用来测试,我在VMware下用Centos7搭起一个三节点的Hadoop完全分布式集群。其中NameNode和DataNode在同一台机器上,如果有条件建议大家把NameNode单独放在一台机器上,因为NameNode是集群的核心承载压力是很大的。hadoop版本:Hadoop-2.7.4; had 阅读全文
posted @ 2019-03-31 12:51 Lvan灬 阅读(625) 评论(0) 推荐(0) 编辑