08 2021 档案

摘要:InputFormat数据输入 切片与MapTask并行度决定机制 1)问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。 思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗? 阅读全文
posted @ 2021-08-31 14:10 好吗,好 阅读(73) 评论(0) 推荐(0)
摘要:1)什么是序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。 2)为什么要序列化 一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的 阅读全文
posted @ 2021-08-30 11:33 好吗,好 阅读(77) 评论(0) 推荐(0)
摘要:MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 优点 1)MapReduce易于编程 它简单的实现一些接口 阅读全文
posted @ 2021-08-28 14:41 好吗,好 阅读(93) 评论(0) 推荐(0)
摘要:(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 (2)DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息。 DN向NN汇报当前解读信息的时间间 阅读全文
posted @ 2021-08-26 15:04 好吗,好 阅读(70) 评论(0) 推荐(0)
摘要:(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 (2)NameNode返回是否可以上传。 (3)客户端请求第一个 Block上传到哪几个DataNode服务器上。 (4)NameNode返回3个 阅读全文
posted @ 2021-08-25 15:00 好吗,好 阅读(86) 评论(0) 推荐(0)
摘要:配置HADOOP_HOME环境变量 配置Path环境变量。 在IDEA中创建一个Maven工程HdfsClientDemo,并导入相应的依赖坐标+日志添加 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifa 阅读全文
posted @ 2021-08-24 14:58 好吗,好 阅读(99) 评论(0) 推荐(0)
摘要:[atguigu@hadoop102 hadoop-3.1.3]$ bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod 阅读全文
posted @ 2021-08-23 11:47 好吗,好 阅读(107) 评论(0) 推荐(0)
摘要:HDFS产出背景及定义 1)HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2)HDFS定义 HDFS(Ha 阅读全文
posted @ 2021-08-22 20:35 好吗,好 阅读(69) 评论(0) 推荐(0)
摘要:端口名称 Hadoop2.x Hadoop3.x NameNode内部通信端口 8020 / 9000 8020 / 9000/9820 NameNode HTTP UI 50070 9870 MapReduce查看执行任务端口 8088 8088 历史服务器通信端口 19888 19888 常见解 阅读全文
posted @ 2021-08-22 16:54 好吗,好 阅读(950) 评论(0) 推荐(0)
摘要:1)各个模块分开启动/停止(配置ssh是前提)常用 (1)整体启动/停止HDFS start-dfs.sh/stop-dfs.sh (2)整体启动/停止YARN start-yarn.sh/stop-yarn.sh 2)各个服务组件逐一启动/停止 (1)分别启动/停止HDFS组件 hdfs --da 阅读全文
posted @ 2021-08-21 18:28 好吗,好 阅读(143) 评论(0) 推荐(0)
摘要:1)配置mapred-site.xml [atguigu@hadoop102 hadoop]$ vim mapred-site.xml 在该文件里面增加如下配置。 <!-- 历史服务器端地址 --> <property> <name>mapreduce.jobhistory.address</nam 阅读全文
posted @ 2021-08-20 19:07 好吗,好 阅读(70) 评论(0) 推荐(0)
摘要:1)集群部署规划 注意: NameNode和SecondaryNameNode不要安装在同一台服务器 ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。 hadoop102 hadoop103 hadoop104 HDFS Na 阅读全文
posted @ 2021-08-19 19:21 好吗,好 阅读(115) 评论(0) 推荐(0)
摘要:循环复制所有文件到所有结点的相同目录下 在/home/atguigu/bin目录下创建xsync文件 [atguigu@hadoop102 opt]$ cd /home/atguigu [atguigu@hadoop102 ~]$ mkdir bin [atguigu@hadoop102 ~]$ c 阅读全文
posted @ 2021-08-18 18:15 好吗,好 阅读(51) 评论(0) 推荐(0)
摘要:0)安装模板虚拟机,IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G 1)hadoop100虚拟机配置要求如下(本文Linux系统全部以CentOS-7.5-x86-1804为例) (1)使用yum安装需要虚拟机可以正常上网,yum安装前可以先测试下虚拟机联网情 阅读全文
posted @ 2021-08-17 21:34 好吗,好 阅读(74) 评论(0) 推荐(0)
摘要:1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 2)Flume:Flume是一 阅读全文
posted @ 2021-08-17 12:13 好吗,好 阅读(70) 评论(0) 推荐(0)
摘要:与传统的分布式程序设计相比,MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节,还提供了一个简单而强大的接口。 MapReduce把对数据集的大规模操作,分发给一个主节点管理下的各分节点共同完成,通过这种方式实现任务的可靠执行与容错机制。 Map输入参数:in_key和in_va 阅读全文
posted @ 2021-08-16 13:30 好吗,好 阅读(207) 评论(0) 推荐(0)
摘要:为了学习hadoop,便了解了一下Google的文件系统 GFS系统架构 1.GFS系统将整个系统结点分为三个角色 Client是GFS提供给应用程序的访问接口,以库文件的形式提供 Master是GFS的管理节点,负责整个文件系统的管理 Chunk Server负责具体的存储工作 2.GFS实现机制 阅读全文
posted @ 2021-08-15 11:09 好吗,好 阅读(399) 评论(0) 推荐(0)