欢迎来到我的博客小站。  交流请加我微信好友: studyjava。  也欢迎关注公众号:Java学习之道 Fork me on GitHub

随笔分类 - Hadoop

1

Hadoop生态圈
摘要:简介: sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具。你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中;也可以把数据从hdfs中导出到关系型数据库中。通过将sqoop的操作命令转化为Hadoop的MapReduce作业进行导入导出,(通常只涉 阅读全文
posted @ 2018-01-01 20:31 淼淼之森 阅读(7830) 评论(0) 推荐(6) 编辑
摘要:测试准备 【首先同步时间:】 【slave各节点启动zookeeper集群:】 【master01启动HDFS集群:】 【master01启动HBase:】 【master02上启动HBase:】 如有节点启动出现故障:单独启动master:cd /software/hbase-1.2.6/bin 阅读全文
posted @ 2017-12-31 10:23 淼淼之森 阅读(542) 评论(0) 推荐(0) 编辑
摘要:测试准备 【首先同步时间:】 【slave各节点启动zookeeper集群:】 【master01启动HDFS集群:】 【master01启动HBase:】 【master02上启动HBase:】 如有节点启动出现故障:单独启动master:cd /software/hbase-1.2.6/bin 阅读全文
posted @ 2017-12-30 15:12 淼淼之森 阅读(894) 评论(0) 推荐(0) 编辑
摘要:[root@CloudDeskTop ~]# su -l hadoop[hadoop@CloudDeskTop ~]$ cd /software/hbase-1.2.6/bin/ [hadoop@CloudDeskTop bin]$ type hbasehbase is /software/hbas 阅读全文
posted @ 2017-12-29 10:03 淼淼之森 阅读(3023) 评论(0) 推荐(2) 编辑
摘要:此文是基于上一篇文章:Hive默认数据库修改配置 (HBase先在集群master01、master02、slave01、slave02、slave03环境配置) 一、安装包初始安装 上传hbase-1.2.6-bin.tar.gz到/install目录; 解压安装到/software目录: 配置运 阅读全文
posted @ 2017-12-28 11:00 淼淼之森 阅读(378) 评论(0) 推荐(0) 编辑
摘要:HBase简介 1、HBase是一个万亿行,百万列大表(Big Table),数据存放在hdfs集群中; 写操作使用MapReduce处理,将(增删改)处理结果放入HBase中,读就直接读HBase; HBase的并发量在1000左右,常用的关系型数据库MySql的并发量在300~500之间,之所以 阅读全文
posted @ 2017-12-27 15:25 淼淼之森 阅读(1104) 评论(0) 推荐(0) 编辑
摘要:此文是基于上一篇文章:Hive环境搭建及测试 因为Hive默认的数据库是derby,不支持同时开启两个./hive的命令终端; 而将Hive的默认数据库修改成mysql后,可以解决该问题。 仅在安装Hive的CloudDeskTop上配置 一、root用户下:上传mysql安装包(mysql-5.5 阅读全文
posted @ 2017-12-26 18:27 淼淼之森 阅读(4691) 评论(0) 推荐(0) 编辑
摘要:前提条件:已经安装好如下软件 此篇文章基于上一篇文章:zookeeper高可用集群搭建 什么是Hive? 1、Hive是一个基于Hadoop文件系统之上的数据仓库结构。它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力。 2、同时Hive定 阅读全文
posted @ 2017-12-21 12:09 淼淼之森 阅读(9799) 评论(0) 推荐(2) 编辑
摘要:前提:已经在master01配置好hadoop;在各个slave节点配置好hadoop和zookeeper; (该文是将zookeeper配置在各slave节点上的,其实也可以配置在各master上,在哪配置就在哪启动zookeeper集群) 此文章基于上一篇文章:linux安装配置zookeepe 阅读全文
posted @ 2017-12-20 14:17 淼淼之森 阅读(3999) 评论(2) 推荐(4) 编辑
摘要:此文是基于上一篇文章:hadoop集群搭建 安装zookeeper: 【在各个slave节点安装zookeeper】 下载地址:http://mirror.bit.edu.cn/apache/zookeeper/ zk节点最好是奇数个,这样子方便在节点中选取leader节点; 上传zookeeper 阅读全文
posted @ 2017-12-20 09:50 淼淼之森 阅读(2877) 评论(0) 推荐(1) 编辑
摘要:测试小结:1.如果只需要对数据集进行过滤,筛选则只需要编写Mapper类,不需要Reduce类,此时要执行下面一条语句:job.setNumReduceTesk(0);2.如果需要对处理的数据进行分组(group by)、排序(order by)、表连接(join)、排重(distinct)等操作则 阅读全文
posted @ 2017-12-19 17:48 淼淼之森 阅读(489) 评论(0) 推荐(1) 编辑
摘要:两张表链接操作(分布式缓存): 假设:其中一张A表,只有20条数据记录(比如group表)另外一张非常大,上亿的记录数量(比如user表) 策略:将数据集小的文件直接装载到内存,然后迭代大文件记录; 分布式缓存的两种角度理解(针对较小数据集):1、将文件不切块,直接存储到各个节点上的本地磁盘中,这种 阅读全文
posted @ 2017-12-19 17:25 淼淼之森 阅读(470) 评论(0) 推荐(0) 编辑
摘要:将user表计算后的结果分区存储 测试准备: 首先同步时间,然后master先开启hdfs集群,再开启yarn集群;用jps查看: master上: 先有NameNode、SecondaryNameNode;再有ResourceManager; slave上: 先有DataNode;再有NodeMa 阅读全文
posted @ 2017-12-18 22:16 淼淼之森 阅读(589) 评论(3) 推荐(1) 编辑
摘要:将手机用户使用流量的数据进行分组,排序; 测试准备: 首先同步时间,然后master先开启hdfs集群,再开启yarn集群;用jps查看: master上: 先有NameNode、SecondaryNameNode;再有ResourceManager; slave上: 先有DataNode;再有No 阅读全文
posted @ 2017-12-16 12:49 淼淼之森 阅读(328) 评论(0) 推荐(0) 编辑
摘要:将user表、group表、order表关;(类似于多表关联查询) 测试准备: 首先同步时间,然后 开启hdfs集群,开启yarn集群;在本地"/home/hadoop/test/"目录创建user表、group表、order表的文件; user文件: group文件: order文件: 测试目标: 阅读全文
posted @ 2017-12-15 09:16 淼淼之森 阅读(777) 评论(0) 推荐(0) 编辑
摘要:只有mapTask任务没有reduceTask的情况: 测试准备: 首先同步时间,然后 开启hdfs集群,开启yarn集群;在本地"/home/hadoop/test/"目录创建user文件; user是存了数据的文件,内容如下: (导入hadoop-2.7.3-All.jar包) 测试目标: 让g 阅读全文
posted @ 2017-12-15 09:15 淼淼之森 阅读(304) 评论(0) 推荐(0) 编辑
摘要:hadoop集群搭建中配置了mapreduce的别名是yarn [hadoop@master01 hadoop]$ mv mapred-site.xml.template mapred-site.xml [hadoop@master01 hadoop]$ vi mapred-site.xml 单词分 阅读全文
posted @ 2017-12-14 10:21 淼淼之森 阅读(1045) 评论(0) 推荐(0) 编辑
摘要:使用Hadoop的Java客户端API操作分布式文件系统#获取文件系统实现//hdfs://master01:9000/FileSystem get(URI uri[,Configuration conf[,String user]])//fs.defaultFSFileSystem newInst 阅读全文
posted @ 2017-12-14 09:37 淼淼之森 阅读(2867) 评论(0) 推荐(1) 编辑
摘要:Hadoop框架详解 Hadoop项目主要包括以下四个模块 ◆ Hadoop Common: 为其他Hadoop模块提供基础设施 ◆ Hadoop HDFS: 一个高可靠、高吞吐量的分布式文件系统 ◆ Hadoop MapReduce: 一个分布式的离线并行计算框架 ◆ Hadoop YARN: 一 阅读全文
posted @ 2017-12-13 09:42 淼淼之森 阅读(14567) 评论(0) 推荐(15) 编辑
摘要:hadoop集群的搭建: 集群节点初始化: 主机节点(4个节点): Master01:NN进程(NameNode) Slave01:DN进程(DataNode) Slave02:DN进程(DataNode) Slave03:DN进程(DataNode) 一、虚拟机中操作(启动网卡) sh /inst 阅读全文
posted @ 2017-12-13 09:36 淼淼之森 阅读(996) 评论(0) 推荐(0) 编辑

1
  👉转载请注明出处和署名