hadoop从零开始 - 随笔分类 - phy2020

序列化

摘要：概述 1. 数据序列化就是将对象或者数据结构转化成特定的格式，使其可在网络中传输，或者可存储在内存或者文件中 2. 反序列化则是相反的操作，将对象从序列化数据中还原出来数据序列化的重点在于数据的交换和传输衡量标准 1. 序列化之后的数据大小。因为序列化的数据要通过网络进行传输或者是存储在内存或者阅读全文

posted @ 2020-04-14 14:00 phy2020 阅读(249) 评论(0) 推荐(0)

HDFS相关概念

摘要：Block是什么 1. Block是HDFS中数据存储的基本单位，即一个文件在HDFS中是由一个或者多个Block构成 2. Block的大小默认是128M，通过dfs.blocksize(hdfs-site.xml)来调节大小，单位是字节 3. 如果一个文件本身不到一个Block的大小，那么这个文阅读全文

posted @ 2020-04-13 12:39 phy2020 阅读(347) 评论(0) 推荐(0)

MapReduce流程

摘要：MapReduce流程一个简单WordCount程序一、准备工作 1.MapReduce基于yarn组件，想要做MapReduce就必须先开启hdfs和yarn。 start-dfs.sh //开启hdfs start-yarn.sh //开启yarn 2.yarn组件依赖于hdfs组件。所以使阅读全文

posted @ 2020-03-04 17:00 phy2020 阅读(615) 评论(0) 推荐(0)

hdfs读写流程，checkpoint流程

摘要：一、HDFS写流程流程： 1.客户端向NameNode通信请求上传文件,附带path 2.namenode进行检查检查的内容：1.hdfs的文件目录2.权限检查3.集群状态4.租约检查 3.NameNode返回是否可以上传 4.得到肯定回复后，客户端切块，再次请求存放的datanode地址。 5 阅读全文

posted @ 2020-03-01 12:12 phy2020 阅读(1239) 评论(0) 推荐(0)

HDFS扩容方案

摘要：HDFS扩容一、横向扩容横向扩容的主要方法是增加集群的节点。增加集群节点有热部署和冷部署。冷部署方法参考:https://www.cnblogs.com/phy2020/p/12361682.html 热部署方法 1.新增一台机器安装方法参考：https://www.cnblogs.com 阅读全文

posted @ 2020-02-27 16:05 phy2020 阅读(1525) 评论(0) 推荐(0)

Hadoop完全分布式搭建

摘要：一、namenode节点各参数二、Hadoop sbin指令 1.hadoop-daemon.sh 每次启动或关闭一个应用 hadoop-daemon start namenode hadoop-daemon start datanode hadoop-daemon start secondar 阅读全文

posted @ 2020-02-25 14:42 phy2020 阅读(515) 评论(0) 推荐(0)

JAVA-API操作HDFS文件系统（HDFS核心类FileSystem的使用）

摘要：HDFS核心类FileSystem的使用一、引入jar包 Hadoop的JAVAjar包在Hadoop2.7.7/share/hadoop里有如下几个文件夹。 common是Hadoop的核心类，它是下面其他核心类的依赖，使用其他类必须引入common包里的jar包。所以使用HDFS的FileS 阅读全文

posted @ 2020-02-22 16:13 phy2020 阅读(963) 评论(0) 推荐(0)

hadoop fs(HDFS文件系统命令)

摘要：Hadoop的HDFS操作命令 HDFS是存取数据的分布式文件系统，那么对HDFS的操作就是对文件系统的操作，比如文件的创建、修改、删除；文件夹的创建、修改、删除。Hadoop作者认为大家对linux文件系统的命令很熟悉，于是借鉴了linux文件系统的命令来作为HDFS的操作命令。（1）查看帮助阅读全文

posted @ 2020-02-21 19:06 phy2020 阅读(2103) 评论(0) 推荐(0)

Hadoop的安装配置

摘要：一、安装CentOS 过程略下载地址：链接：https://pan.baidu.com/s/1nursRf23DjI5ynmuVvUYuw 提取码：76xk 二、配置CentOS网络设置 1.进入网络配置cd /etc/sysconfig/network-scripts 2.打开ens33配置vi 阅读全文

posted @ 2020-02-20 18:51 phy2020 阅读(362) 评论(0) 推荐(0)

phy2020

随笔分类 - hadoop从零开始

公告