随笔分类 -  hadoop从零开始

新人大数据开发工程师的一步一步脚印
摘要:概述 1. 数据序列化就是将对象或者数据结构转化成特定的格式,使其可在网络中传输,或者可存储在内存或者文件中 2. 反序列化则是相反的操作,将对象从序列化数据中还原出来 数据序列化的重点在于数据的交换和传输 衡量标准 1. 序列化之后的数据大小。因为序列化的数据要通过网络进行传输或者是存储在内存或者 阅读全文
posted @ 2020-04-14 14:00 phy2020 阅读(234) 评论(0) 推荐(0)
摘要:Block是什么 1. Block是HDFS中数据存储的基本单位,即一个文件在HDFS中是由一个或者多个Block构成 2. Block的大小默认是128M,通过dfs.blocksize(hdfs-site.xml)来调节大小,单位是字节 3. 如果一个文件本身不到一个Block的大小,那么这个文 阅读全文
posted @ 2020-04-13 12:39 phy2020 阅读(340) 评论(0) 推荐(0)
摘要:MapReduce流程 一个简单WordCount程序 一、准备工作 1.MapReduce基于yarn组件,想要做MapReduce就必须先开启hdfs和yarn。 start-dfs.sh //开启hdfs start-yarn.sh //开启yarn 2.yarn组件依赖于hdfs组件。所以使 阅读全文
posted @ 2020-03-04 17:00 phy2020 阅读(611) 评论(0) 推荐(0)
摘要:一、HDFS写流程 流程: 1.客户端向NameNode通信请求上传文件,附带path 2.namenode进行检查 检查的内容:1.hdfs的文件目录2.权限检查3.集群状态4.租约检查 3.NameNode返回是否可以上传 4.得到肯定回复后,客户端切块,再次请求存放的datanode地址。 5 阅读全文
posted @ 2020-03-01 12:12 phy2020 阅读(1234) 评论(0) 推荐(0)
摘要:HDFS扩容 一、横向扩容 横向扩容的主要方法是增加集群的节点。 增加集群节点有热部署和冷部署。 冷部署方法参考:https://www.cnblogs.com/phy2020/p/12361682.html 热部署方法 1.新增一台机器 安装方法参考:https://www.cnblogs.com 阅读全文
posted @ 2020-02-27 16:05 phy2020 阅读(1510) 评论(0) 推荐(0)
摘要:一、namenode节点各参数 二、Hadoop sbin指令 1.hadoop-daemon.sh 每次启动 或关闭一个应用 hadoop-daemon start namenode hadoop-daemon start datanode hadoop-daemon start secondar 阅读全文
posted @ 2020-02-25 14:42 phy2020 阅读(513) 评论(0) 推荐(0)
摘要:HDFS核心类FileSystem的使用 一、引入jar包 Hadoop的JAVAjar包在Hadoop2.7.7/share/hadoop里有如下几个文件夹。 common是Hadoop的核心类,它是下面其他核心类的依赖,使用其他类必须引入common包里的jar包。 所以使用HDFS的FileS 阅读全文
posted @ 2020-02-22 16:13 phy2020 阅读(956) 评论(0) 推荐(0)
摘要:Hadoop的HDFS操作命令 HDFS是存取数据的分布式文件系统,那么对HDFS的操作就是对文件系统的操作,比如文件的创建、修改、删除;文件夹的创建、修改、删除。Hadoop作者认为大家对linux文件系统的命令很熟悉,于是借鉴了linux文件系统的命令来作为HDFS的操作命令。 (1)查看帮助 阅读全文
posted @ 2020-02-21 19:06 phy2020 阅读(2092) 评论(0) 推荐(0)
摘要:一、安装CentOS 过程略 下载地址:链接:https://pan.baidu.com/s/1nursRf23DjI5ynmuVvUYuw 提取码:76xk 二、配置CentOS网络设置 1.进入网络配置cd /etc/sysconfig/network-scripts 2.打开ens33配置vi 阅读全文
posted @ 2020-02-20 18:51 phy2020 阅读(361) 评论(0) 推荐(0)