摘要: 概述 1. Zookeeper是根据谷歌的论文《The Chubby Lock Service for Loosely Couple Distribute System 》所做的开源实现 2. Zookeeper是Apache Hadoop的子组件之一,但是不仅仅支持Hadoop,还支持绝大部分的分 阅读全文
posted @ 2020-04-17 23:23 phy2020 阅读(232) 评论(0) 推荐(0)
摘要: 1.前提条件 1.1创建3台虚拟机,且配置好网络,建立好互信(ssh免密)。 1.2 Java1.8环境已经配置好 1.3 Hadoop集群已经完成搭建 1.4 Scala软件包和Spark软件包的下载 https://www.scala-lang.org/download/ http://spar 阅读全文
posted @ 2020-04-16 23:30 phy2020 阅读(565) 评论(0) 推荐(0)
摘要: RPC普及篇 概述 1. RPC 的全称是 Remote Procedure Call(远程过程调用)是一种进程间通信方式 2. 它允许程序调用另一个地址空间(通常是共享网络的另一台机器上)的过程或函数,而不用程序员显式编码这个远程调用的细节。 即程序员无论是调用本地的还是远程的,本质上编写的调用代 阅读全文
posted @ 2020-04-16 00:33 phy2020 阅读(1496) 评论(0) 推荐(0)
摘要: 概述 1. 数据序列化就是将对象或者数据结构转化成特定的格式,使其可在网络中传输,或者可存储在内存或者文件中 2. 反序列化则是相反的操作,将对象从序列化数据中还原出来 数据序列化的重点在于数据的交换和传输 衡量标准 1. 序列化之后的数据大小。因为序列化的数据要通过网络进行传输或者是存储在内存或者 阅读全文
posted @ 2020-04-14 14:00 phy2020 阅读(234) 评论(0) 推荐(0)
摘要: Block是什么 1. Block是HDFS中数据存储的基本单位,即一个文件在HDFS中是由一个或者多个Block构成 2. Block的大小默认是128M,通过dfs.blocksize(hdfs-site.xml)来调节大小,单位是字节 3. 如果一个文件本身不到一个Block的大小,那么这个文 阅读全文
posted @ 2020-04-13 12:39 phy2020 阅读(340) 评论(0) 推荐(0)
摘要: MapReduce流程 一个简单WordCount程序 一、准备工作 1.MapReduce基于yarn组件,想要做MapReduce就必须先开启hdfs和yarn。 start-dfs.sh //开启hdfs start-yarn.sh //开启yarn 2.yarn组件依赖于hdfs组件。所以使 阅读全文
posted @ 2020-03-04 17:00 phy2020 阅读(611) 评论(0) 推荐(0)
摘要: 一、HDFS写流程 流程: 1.客户端向NameNode通信请求上传文件,附带path 2.namenode进行检查 检查的内容:1.hdfs的文件目录2.权限检查3.集群状态4.租约检查 3.NameNode返回是否可以上传 4.得到肯定回复后,客户端切块,再次请求存放的datanode地址。 5 阅读全文
posted @ 2020-03-01 12:12 phy2020 阅读(1234) 评论(0) 推荐(0)
摘要: HDFS扩容 一、横向扩容 横向扩容的主要方法是增加集群的节点。 增加集群节点有热部署和冷部署。 冷部署方法参考:https://www.cnblogs.com/phy2020/p/12361682.html 热部署方法 1.新增一台机器 安装方法参考:https://www.cnblogs.com 阅读全文
posted @ 2020-02-27 16:05 phy2020 阅读(1510) 评论(0) 推荐(0)
摘要: 一、namenode节点各参数 二、Hadoop sbin指令 1.hadoop-daemon.sh 每次启动 或关闭一个应用 hadoop-daemon start namenode hadoop-daemon start datanode hadoop-daemon start secondar 阅读全文
posted @ 2020-02-25 14:42 phy2020 阅读(513) 评论(0) 推荐(0)
摘要: HDFS核心类FileSystem的使用 一、引入jar包 Hadoop的JAVAjar包在Hadoop2.7.7/share/hadoop里有如下几个文件夹。 common是Hadoop的核心类,它是下面其他核心类的依赖,使用其他类必须引入common包里的jar包。 所以使用HDFS的FileS 阅读全文
posted @ 2020-02-22 16:13 phy2020 阅读(956) 评论(0) 推荐(0)