随笔分类 -  Hadoop

hadoop自学笔记
摘要:Sqoop是用来实现结构型数据(如:关系型数据库RDBMS)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,同时也借助MapReduce实现容错。一、将MySQL中的表迁移到HDFS上(RDBMS —> HDFS)导入MySQL"db_sqoop.mysql_emp表"所有数据到HDFS中;sqoop import \--co... 阅读全文
posted @ 2019-03-31 20:04 Lvan灬 阅读(379) 评论(0) 推荐(0)
摘要:最近被朋友问到有关于Hive Join的问题,保守回答过后,来补充补充知识; Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。一、Hive支持哪些连接来自官网的截图:二、Hive五种连接INNER JOIN:返回两张表中关联条件为"真"的记录;LEFT JOIN(LEFT OUTER JOIN):返回左表中所有的... 阅读全文
posted @ 2019-03-31 17:54 Lvan灬 阅读(484) 评论(0) 推荐(0)
摘要:用来测试,我在VMware下用Centos7搭起一个三节点的Hadoop完全分布式集群。其中NameNode和DataNode在同一台机器上,如果有条件建议大家把NameNode单独放在一台机器上,因为NameNode是集群的核心承载压力是很大的。hadoop版本:Hadoop-2.7.4; had 阅读全文
posted @ 2019-03-31 12:51 Lvan灬 阅读(760) 评论(0) 推荐(0)
摘要:一、什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 主流数据仓库:Teradata、Oracle、DB2、Hive(基于Hadoop的开源数据仓库);... 阅读全文
posted @ 2019-03-28 00:59 Lvan灬 阅读(653) 评论(0) 推荐(0)
摘要:hadoop伪分布模式,只有一个节点,通常用来做测试。一、环境准备Linux网络配置已完成,可参见CentOS7网络配置;yum源成功挂载,可参见CentOS7本地yum源挂载;Linux已安装OracleJDK1.8+,可参见OracleJDK1.8安装;zookeeper-3.4.6.tar.gz安装包,hadoop安装包下载;二、创建Hadoop用户(以后有关集群的操作都只用此用... 阅读全文
posted @ 2019-03-27 01:05 Lvan灬 阅读(278) 评论(0) 推荐(0)