随笔分类 - Hadoop
hadoop自学笔记
摘要:Sqoop是用来实现结构型数据(如:关系型数据库RDBMS)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,同时也借助MapReduce实现容错。一、将MySQL中的表迁移到HDFS上(RDBMS —> HDFS)导入MySQL"db_sqoop.mysql_emp表"所有数据到HDFS中;sqoop import \--co...
阅读全文
摘要:最近被朋友问到有关于Hive Join的问题,保守回答过后,来补充补充知识; Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。一、Hive支持哪些连接来自官网的截图:二、Hive五种连接INNER JOIN:返回两张表中关联条件为"真"的记录;LEFT JOIN(LEFT OUTER JOIN):返回左表中所有的...
阅读全文
摘要:用来测试,我在VMware下用Centos7搭起一个三节点的Hadoop完全分布式集群。其中NameNode和DataNode在同一台机器上,如果有条件建议大家把NameNode单独放在一台机器上,因为NameNode是集群的核心承载压力是很大的。hadoop版本:Hadoop-2.7.4; had
阅读全文
摘要:一、什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 主流数据仓库:Teradata、Oracle、DB2、Hive(基于Hadoop的开源数据仓库);...
阅读全文
摘要:hadoop伪分布模式,只有一个节点,通常用来做测试。一、环境准备Linux网络配置已完成,可参见CentOS7网络配置;yum源成功挂载,可参见CentOS7本地yum源挂载;Linux已安装OracleJDK1.8+,可参见OracleJDK1.8安装;zookeeper-3.4.6.tar.gz安装包,hadoop安装包下载;二、创建Hadoop用户(以后有关集群的操作都只用此用...
阅读全文

浙公网安备 33010602011771号