Hadoop - 随笔分类 - 淼淼之森

sqoop安装及使用

摘要：简介： sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具。你可以通过sqoop把数据从数据库（比如mysql,oracle）导入到hdfs中；也可以把数据从hdfs中导出到关系型数据库中。通过将sqoop的操作命令转化为Hadoop的MapReduce作业进行导入导出，(通常只涉阅读全文

posted @ 2018-01-01 20:31 淼淼之森阅读(8202) 评论(0) 推荐(6) 编辑

HBase的java客户端测试(二)---DML操作

摘要：测试准备【首先同步时间：】【slave各节点启动zookeeper集群：】【master01启动HDFS集群：】【master01启动HBase：】【master02上启动HBase:】如有节点启动出现故障：单独启动master：cd /software/hbase-1.2.6/bin 阅读全文

posted @ 2017-12-31 10:23 淼淼之森阅读(600) 评论(0) 推荐(0) 编辑

HBase的java客户端测试(一)---DDL操作

摘要：测试准备【首先同步时间：】【slave各节点启动zookeeper集群：】【master01启动HDFS集群：】【master01启动HBase：】【master02上启动HBase:】如有节点启动出现故障：单独启动master：cd /software/hbase-1.2.6/bin 阅读全文

posted @ 2017-12-30 15:12 淼淼之森阅读(971) 评论(0) 推荐(0) 编辑

HBase命令终端测试

摘要：[root@CloudDeskTop ~]# su -l hadoop[hadoop@CloudDeskTop ~]$ cd /software/hbase-1.2.6/bin/ [hadoop@CloudDeskTop bin]$ type hbasehbase is /software/hbas 阅读全文

posted @ 2017-12-29 10:03 淼淼之森阅读(3192) 评论(0) 推荐(2) 编辑

HBase环境搭建

摘要：此文是基于上一篇文章：Hive默认数据库修改配置（HBase先在集群master01、master02、slave01、slave02、slave03环境配置）一、安装包初始安装上传hbase-1.2.6-bin.tar.gz到/install目录；解压安装到/software目录：配置运阅读全文

posted @ 2017-12-28 11:00 淼淼之森阅读(420) 评论(0) 推荐(0) 编辑

HBase简介及原理

摘要：HBase简介 1、HBase是一个万亿行，百万列大表(Big Table)，数据存放在hdfs集群中；写操作使用MapReduce处理，将（增删改）处理结果放入HBase中，读就直接读HBase； HBase的并发量在1000左右，常用的关系型数据库MySql的并发量在300~500之间，之所以阅读全文

posted @ 2017-12-27 15:25 淼淼之森阅读(1572) 评论(0) 推荐(0) 编辑

Hive默认数据库修改配置

摘要：此文是基于上一篇文章：Hive环境搭建及测试因为Hive默认的数据库是derby，不支持同时开启两个./hive的命令终端；而将Hive的默认数据库修改成mysql后，可以解决该问题。仅在安装Hive的CloudDeskTop上配置一、root用户下：上传mysql安装包(mysql-5.5 阅读全文

posted @ 2017-12-26 18:27 淼淼之森阅读(5195) 评论(0) 推荐(1) 编辑

Hive环境搭建及测试

摘要：前提条件：已经安装好如下软件此篇文章基于上一篇文章：zookeeper高可用集群搭建什么是Hive？ 1、Hive是一个基于Hadoop文件系统之上的数据仓库结构。它为数据仓库的管理提供了许多功能：数据ETL（抽取、转换和加载）工具、数据存储管理和大型数据集的查询和分析能力。 2、同时Hive定阅读全文

posted @ 2017-12-21 12:09 淼淼之森阅读(10394) 评论(0) 推荐(5) 编辑

zookeeper高可用集群搭建

摘要：前提：已经在master01配置好hadoop；在各个slave节点配置好hadoop和zookeeper；（该文是将zookeeper配置在各slave节点上的，其实也可以配置在各master上，在哪配置就在哪启动zookeeper集群）此文章基于上一篇文章：linux安装配置zookeepe 阅读全文

posted @ 2017-12-20 14:17 淼淼之森阅读(4249) 评论(2) 推荐(4) 编辑

linux安装配置zookeeper-3.4.10

摘要：此文是基于上一篇文章：hadoop集群搭建安装zookeeper：【在各个slave节点安装zookeeper】下载地址：http://mirror.bit.edu.cn/apache/zookeeper/ zk节点最好是奇数个，这样子方便在节点中选取leader节点；上传zookeeper 阅读全文

posted @ 2017-12-20 09:50 淼淼之森阅读(3113) 评论(0) 推荐(1) 编辑

hadoop小结

摘要：测试小结：1.如果只需要对数据集进行过滤，筛选则只需要编写Mapper类，不需要Reduce类，此时要执行下面一条语句:job.setNumReduceTesk(0);2.如果需要对处理的数据进行分组（group by）、排序（order by）、表连接（join）、排重（distinct）等操作则阅读全文

posted @ 2017-12-19 17:48 淼淼之森阅读(570) 评论(0) 推荐(1) 编辑

YARN集群的mapreduce测试（六）

摘要：两张表链接操作（分布式缓存）：假设：其中一张A表，只有20条数据记录（比如group表）另外一张非常大，上亿的记录数量（比如user表）策略：将数据集小的文件直接装载到内存，然后迭代大文件记录；分布式缓存的两种角度理解（针对较小数据集）：1、将文件不切块，直接存储到各个节点上的本地磁盘中，这种阅读全文

posted @ 2017-12-19 17:25 淼淼之森阅读(546) 评论(0) 推荐(0) 编辑

YARN集群的mapreduce测试（五）

摘要：将user表计算后的结果分区存储测试准备：首先同步时间，然后master先开启hdfs集群，再开启yarn集群；用jps查看： master上：先有NameNode、SecondaryNameNode;再有ResourceManager; slave上：先有DataNode；再有NodeMa 阅读全文

posted @ 2017-12-18 22:16 淼淼之森阅读(639) 评论(3) 推荐(1) 编辑

YARN集群的mapreduce测试（四）

摘要：将手机用户使用流量的数据进行分组，排序；测试准备：首先同步时间，然后master先开启hdfs集群，再开启yarn集群；用jps查看： master上：先有NameNode、SecondaryNameNode;再有ResourceManager; slave上：先有DataNode；再有No 阅读全文

posted @ 2017-12-16 12:49 淼淼之森阅读(393) 评论(0) 推荐(0) 编辑

YARN集群的mapreduce测试（三）

摘要：将user表、group表、order表关；（类似于多表关联查询）测试准备: 首先同步时间，然后开启hdfs集群，开启yarn集群；在本地"/home/hadoop/test/"目录创建user表、group表、order表的文件； user文件： group文件： order文件：测试目标：阅读全文

posted @ 2017-12-15 09:16 淼淼之森阅读(845) 评论(0) 推荐(0) 编辑

YARN集群的mapreduce测试（二）

摘要：只有mapTask任务没有reduceTask的情况：测试准备: 首先同步时间，然后开启hdfs集群，开启yarn集群；在本地"/home/hadoop/test/"目录创建user文件； user是存了数据的文件，内容如下：（导入hadoop-2.7.3-All.jar包）测试目标：让g 阅读全文

posted @ 2017-12-15 09:15 淼淼之森阅读(353) 评论(0) 推荐(0) 编辑

YARN集群的mapreduce测试（一）

摘要：hadoop集群搭建中配置了mapreduce的别名是yarn [hadoop@master01 hadoop]$ mv mapred-site.xml.template mapred-site.xml [hadoop@master01 hadoop]$ vi mapred-site.xml 单词分阅读全文

posted @ 2017-12-14 10:21 淼淼之森阅读(1200) 评论(0) 推荐(0) 编辑

HDFS简单测试

摘要：使用Hadoop的Java客户端API操作分布式文件系统#获取文件系统实现//hdfs://master01:9000/FileSystem get(URI uri[,Configuration conf[,String user]])//fs.defaultFSFileSystem newInst 阅读全文

posted @ 2017-12-14 09:37 淼淼之森阅读(3217) 评论(0) 推荐(1) 编辑

hadoop框架详解

摘要：Hadoop框架详解 Hadoop项目主要包括以下四个模块 ◆ Hadoop Common: 为其他Hadoop模块提供基础设施 ◆ Hadoop HDFS: 一个高可靠、高吞吐量的分布式文件系统 ◆ Hadoop MapReduce: 一个分布式的离线并行计算框架 ◆ Hadoop YARN: 一阅读全文

posted @ 2017-12-13 09:42 淼淼之森阅读(16254) 评论(0) 推荐(22) 编辑

hadoop集群搭建

摘要：hadoop集群的搭建：集群节点初始化：主机节点（4个节点）： Master01:NN进程（NameNode） Slave01:DN进程（DataNode） Slave02:DN进程（DataNode） Slave03:DN进程（DataNode）一、虚拟机中操作(启动网卡) sh /inst 阅读全文

posted @ 2017-12-13 09:36 淼淼之森阅读(1154) 评论(0) 推荐(0) 编辑

淼淼之森

学习在于积累：滴水可以石穿！学而不思则罔，思而不学则殆！
👉【转载请注明出处和署名！】

随笔分类 - Hadoop

公告

淼淼之森

学习在于积累：滴水可以石穿！ 学而不思则罔，思而不学则殆！ 👉【转载请注明出处和署名！】

随笔分类 - Hadoop

公告

学习在于积累：滴水可以石穿！学而不思则罔，思而不学则殆！
👉【转载请注明出处和署名！】