随笔分类 - Hadoop
摘要:MapReduce 框架原理 1.InputFormat可以对Mapper的输入进行控制 2.Reducer阶段会主动拉取Mapper阶段处理完的数据 3.Shuffle可以对数据进行排序、分区、压缩、合并,核心部分。 4.OutPutFomat可以对Reducer的输出进行控制 4.OutputF
阅读全文
摘要:MapReduce 框架原理 1.InputFormat可以对Mapper的输入进行控制 2.Reducer阶段会主动拉取Mapper阶段处理完的数据 3.Shuffle可以对数据进行排序、分区、压缩、合并,核心部分。 4.OutPutFomat可以对Reducer的输出进行控制 2 MapRedu
阅读全文
摘要:MapReduce 框架原理 1.InputFormat可以对Mapper的输入进行控制 2.Reducer阶段会主动拉取Mapper阶段处理完的数据 3.Shuffle可以对数据进行排序、分区、压缩、合并,核心部分。 4.OutPutFomat可以对Reducer的输出进行控制 1 InputFo
阅读全文
摘要:MapReduce 序列化 概述 节点通过字节码传输 序列化 内存->字节码 反序列化 字节码->内存 自定义序列化 常用数据序列化类型 hadoop序列化采用简单校验使得存储空间少、传输速度快 int与IntWritable转化 //b是int类型 IntWritable outV = new I
阅读全文
摘要:MapReduce 概述 放假回家了,笔记本没有环境,后面的图片源于网络 1.定义 MapReduce是一个分布式运算程序的编程框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。 2.优缺点 优点 1.M
阅读全文
摘要:DataNode DataNode工作机制 一个数据块在DataNode上以文字形式存储在磁盘上,包括一下两个文件。 1.DataNode启动后告诉NameNode本机的块信息(块是否完好),并周期性(默认6个小时)上报所有块消息(块是否完好)。 如DataNode1中Block1的数据长度、校验和
阅读全文
摘要:NameNode和SecondaryNameNode(了解) NN 和 2NN 工作机制 问题1:NN的元数据存储在内存中还是磁盘中? 存储点 好处 坏处 内存 计算快 可靠性差 磁盘 可靠性高 计算速度慢 总和两者的好处,采用内存加磁盘的存储方式存储,磁盘中备份元数据Fslmage镜像文件。 如果
阅读全文
摘要:HDFS的读写流程(面试重点) HDFS写数据流程 客服端把D://ss.avi文件传送到集群 1.首先需要创建一个Distributed FileSystem(分布式文件系统)客服端。向NameNode请求上传文件。上传到/user/atguigu/ss.avi路径。 2.NameNode 检查用
阅读全文
摘要:HDFS的API操作 之前时用Shell的一写相关操作,集群内部操作。 我们希望在Windows环境对远程的集群进行一个客户端访问,现在就在Windows环境上写代码,写HDFS客户端代码,远程连接上集群,对它们进行增删改查相关操作。 客户端环境准备 1.下载windows支持的hadoop 2.配
阅读全文
摘要:HDFS的Shell操作(开发重点) 基本语法 方式1: hadoop fs 具体命令 方式2: hdfs dfs 具体命令 常用命令 一共分三大类命令:上传、下载、HDFS直接操作 准备工作 1.启动Hadoop集群 [ranan@hadoop102 hadoop-3.1.3]$ myhadoop
阅读全文
摘要:HDFS 概述 HDFS的产生背景和定义 HDFS产生背景 解决海量数据的存储问题 需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。 HDFS定义 HDFS(Hadoop Distributed File System),它是一个文件系统,用于
阅读全文
摘要:常见错误及解决方案 ResourceManager连接失败 INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032 可能原因 1.防火墙没关闭 2.没有启动YARN root用户和rana
阅读全文
摘要:集群时间同步 **如果服务器在公网环境(能连接外网),可以不采用集群时间同步。**因为服务器会定期和公网时间进行校准。 如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差,导致集群执行任务时间不同步。 时间服务器配置(必须root用户) 首先需要设置一个时间服务器作为基准,其
阅读全文
摘要:集群常用知识与常用脚本总结 集群启动/停止方式 ###1 各个模块分开启动/停止(常用) 配置ssh是前提 整体启动/停止HDFS [ranan@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh [ranan@hadoop102 hadoop-3.1.3]$ sb
阅读全文
摘要:集群配置 现在各个服务器的准备工作已经做好了,但是Hadoop之间是没有任何关系的 集群部署规划 1.NameNode和SecondaryNameNode不要安装在同一台服务器,因为都耗内存。 2.ResourceManager也很小号内存,不要和NameNode、SecondaryNameNode
阅读全文
摘要:集群崩溃的处理方法 搞崩集群 hadoop102 hadoop103 hadoop104 此时HDFS Web端的文件是不可以下载的,因为三个副本都删除了。 错误示范 最先想到的是格式化集群 [ranan@hadoop102 hadoop-3.1.3]$ hdfs namenode -format
阅读全文
摘要:Hadoop运行环境 Local Mode:测试偶尔使用 Pseudo-Distributed Mode:用的少 Full-Distreibuted Mode:通常使用 完全分布式运行模式(重点) 任务: 1.准备三台客户机(关闭防火墙、静态IP、主机名称) √ 2.安装JDK 3.配置环境变量 4
阅读全文
摘要:模板虚拟机 1 硬件 说明: 1.hadoop100.vmdk生成的物理磁盘文件,为了方便管理放在hadoop100文件夹下。 2 操作系统 磁盘分区:选择自定义-点击完成-进行分区 /boot 文件系统选ext4 swap 当内存不够时由此区域冒充硬盘 网络和主机名 3 IP地址和主机名称 需要进
阅读全文
摘要:Hadoop是分布式系统基础架构,通常指Hadoop生态圈 主要解决 1.海量数据的存储 2.海量数据的分析计算 优势 高可靠性:Hadoop底层维护多个数据副本,即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失 高扩展性:在集群间分配任务数据,方便动态(原来的继续运行)增加删除节点
阅读全文
浙公网安备 33010602011771号