Hadoop - 随笔分类 - Lvan灬

Sqoop迁移Hadoop与RDBMS间的数据

摘要：Sqoop是用来实现结构型数据（如:关系型数据库RDBMS）和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输，同时也借助MapReduce实现容错。一、将MySQL中的表迁移到HDFS上（RDBMS —> HDFS）导入MySQL"db_sqoop.mysql_emp表"所有数据到HDFS中;sqoop import \--co... 阅读全文

posted @ 2019-03-31 20:04 Lvan灬阅读(379) 评论(0) 推荐(0)

Hive Join

摘要：最近被朋友问到有关于Hive Join的问题，保守回答过后，来补充补充知识； Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。一、Hive支持哪些连接来自官网的截图：二、Hive五种连接INNER JOIN:返回两张表中关联条件为＂真＂的记录；LEFT JOIN(LEFT OUTER JOIN):返回左表中所有的... 阅读全文

posted @ 2019-03-31 17:54 Lvan灬阅读(484) 评论(0) 推荐(0)

Hadoop 完全分布式部署(三节点)

摘要：用来测试，我在VMware下用Centos7搭起一个三节点的Hadoop完全分布式集群。其中NameNode和DataNode在同一台机器上，如果有条件建议大家把NameNode单独放在一台机器上，因为NameNode是集群的核心承载压力是很大的。hadoop版本：Hadoop-2.7.4； had 阅读全文

posted @ 2019-03-31 12:51 Lvan灬阅读(760) 评论(0) 推荐(0)

数据仓库

摘要：一、什么是数据仓库数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。主流数据仓库：Teradata、Oracle、DB2、Hive(基于Hadoop的开源数据仓库)；... 阅读全文

posted @ 2019-03-28 00:59 Lvan灬阅读(653) 评论(0) 推荐(0)

Hadoop2.x伪分模式部署

摘要：hadoop伪分布模式，只有一个节点，通常用来做测试。一、环境准备Linux网络配置已完成，可参见CentOS7网络配置；yum源成功挂载,可参见CentOS7本地yum源挂载；Linux已安装OracleJDK1.8+，可参见OracleJDK1.8安装；zookeeper-3.4.6.tar.gz安装包,hadoop安装包下载；二、创建Hadoop用户(以后有关集群的操作都只用此用... 阅读全文

posted @ 2019-03-27 01:05 Lvan灬阅读(278) 评论(0) 推荐(0)

为梦想付出

致敬青春！

随笔分类 - Hadoop

公告