09 2020 档案
摘要:Hive中metastore(元数据存储)的三种方式: 内嵌Derby方式 Local方式 Remote方式 1.本地模式(derby) 这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可 <?xml version="1.0"?> <?xml-stylesheet typ
阅读全文
摘要:这几天学习了MapReduce,我参照资料,自己又画了两张MapReduce的架构图。 这里我根据架构图以及对应的源码,来解释一次分布式MapReduce的计算到底是怎么工作的。 话不多说,开始! 首先,结合我画的架构图来进行解释。 上图是MapReduce的基本运行逻辑。把图从中间切分,左边为M
阅读全文
摘要:这几天学习大数据,搭建的集群服务器由于Vmware内部实现的虚拟网关,动态分配ip,使得每次ip更改后,均需要修改集群节点的每个hosts文件,不然集群间联系会出错,因此为了杜绝这个问题,这里修改集群的ip为静态ip,杜绝这个问题。 一、打开VMware的网络设置界面 1、选择菜单栏的编辑选项 2、
阅读全文
摘要:前提:hadoop集群应部署完毕。 一、实战科目 做一个Map Reduce分布式开发,开发内容为统计文件中的单词出现次数。 二、战前准备 1、本人在本地创建了一个用于执行MR的的文件,文件中有209行,每行写了“这是一个测试文件”的句子。 2、将该文件上传至HDFS中。你可以使用idea中的插件上
阅读全文
摘要:在部署完了高可用的集群的基础上,开始对目前的集群做一次小开发,练练手。 我的开发环境在Windows 10 64位的机器上,因此需要针对Windows的开发环境进行前期准备。 保证Windows系统上安装了java 将hadoop/share/hadoop目录下的有关jar包全部拷贝至同目录下 将此
阅读全文
摘要:在之前博文中提及的高可用集群的基础上,我们这次添加YARN这个模块。 更新部署表如下: RS:Resource Manager NM:NodeManager 1、修改mapred-site.xml vim /data/hadoop/hadoop-3.3.0/etc/hadoop/mapred-sit
阅读全文
摘要:这里基于之前的博文,即在全分布式安装的基础上增量部署高可用集群。 集群部署表如下: NameNode1 NameNode2 DataNode ZooKeeper ZKFC JournalNode node1 √ √ √ √ node2 √ √ √ √ √ node3 √ √ √ node4 √ √
阅读全文
摘要:准备 集群服务器准备 在虚拟机中创建四个配置为1核,2G内存,20G存储的虚拟机。(在这里有任何问题,请参考上篇博文——>传送门) 必要的软件工具准备 FileZilla Client(FTP客户端) MobaXterm(SSH客户端) hadoop-3.3.1(hadoop核心文件) 这里不提供下
阅读全文
摘要:这几天开始学习大数据,这离不开Hadoop这个Apache的经典项目。 由于Hadoop这个项目一般都是以集群方式运作, 自己学习却没有如此庞大的资源, 因此根据官网介绍, 我这里采用伪分布式集群进行安装,即单节点,多个进程扮演不同角色。 准备 虚拟机软件 VMware® Workstation 1
阅读全文
摘要:今天在安装CentOS7的虚机时,想安装一个htop,发现没有,网上搜索了解决方案,最后发现,需要安装EPEL源才能继续安装,故此记录一下。 EPEL的全称叫 Extra Packages for Enterprise Linux 。 EPEL是由 Fedora 社区打造,为 RHEL 及衍生发行版
阅读全文