Hadoop - 随笔分类(第2页) - rananie

MapReduce05 框架原理OutPutFormat数据输出

摘要：MapReduce 框架原理 1.InputFormat可以对Mapper的输入进行控制 2.Reducer阶段会主动拉取Mapper阶段处理完的数据 3.Shuffle可以对数据进行排序、分区、压缩、合并，核心部分。 4.OutPutFomat可以对Reducer的输出进行控制 4.OutputF 阅读全文

posted @ 2021-08-18 21:14 rananie 阅读(86) 评论(0) 推荐(0)

MapReduce04 框架原理Shuffle

摘要：MapReduce 框架原理 1.InputFormat可以对Mapper的输入进行控制 2.Reducer阶段会主动拉取Mapper阶段处理完的数据 3.Shuffle可以对数据进行排序、分区、压缩、合并，核心部分。 4.OutPutFomat可以对Reducer的输出进行控制 2 MapRedu 阅读全文

posted @ 2021-08-16 19:16 rananie 阅读(93) 评论(0) 推荐(0)

MapReduce03 框架原理InputFormat数据输入

摘要：MapReduce 框架原理 1.InputFormat可以对Mapper的输入进行控制 2.Reducer阶段会主动拉取Mapper阶段处理完的数据 3.Shuffle可以对数据进行排序、分区、压缩、合并，核心部分。 4.OutPutFomat可以对Reducer的输出进行控制 1 InputFo 阅读全文

posted @ 2021-08-09 23:11 rananie 阅读(113) 评论(0) 推荐(0)

MapReduce02 序列化

摘要：MapReduce 序列化概述节点通过字节码传输序列化内存->字节码反序列化字节码->内存自定义序列化常用数据序列化类型 hadoop序列化采用简单校验使得存储空间少、传输速度快 int与IntWritable转化 //b是int类型 IntWritable outV = new I 阅读全文

posted @ 2021-08-02 23:45 rananie 阅读(153) 评论(0) 推荐(0)

MapReduce01 概述

摘要：MapReduce 概述放假回家了，笔记本没有环境，后面的图片源于网络 1.定义 MapReduce是一个分布式运算程序的编程框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 Hadoop 集群上。 2.优缺点优点 1.M 阅读全文

posted @ 2021-07-21 17:59 rananie 阅读(265) 评论(0) 推荐(0)

HDFS06 DataNode

摘要：DataNode DataNode工作机制一个数据块在DataNode上以文字形式存储在磁盘上，包括一下两个文件。 1.DataNode启动后告诉NameNode本机的块信息(块是否完好)，并周期性(默认6个小时)上报所有块消息(块是否完好)。如DataNode1中Block1的数据长度、校验和阅读全文

posted @ 2021-07-12 11:02 rananie 阅读(95) 评论(0) 推荐(0)

HDFS05 NameNode和SecondaryNameNode

摘要：NameNode和SecondaryNameNode(了解) NN 和 2NN 工作机制问题1：NN的元数据存储在内存中还是磁盘中? 存储点好处坏处内存计算快可靠性差磁盘可靠性高计算速度慢总和两者的好处，采用内存加磁盘的存储方式存储，磁盘中备份元数据Fslmage镜像文件。如果阅读全文

posted @ 2021-07-08 22:13 rananie 阅读(122) 评论(0) 推荐(0)

HDFS04 HDFS的读写流程

摘要：HDFS的读写流程(面试重点) HDFS写数据流程客服端把D://ss.avi文件传送到集群 1.首先需要创建一个Distributed FileSystem（分布式文件系统）客服端。向NameNode请求上传文件。上传到/user/atguigu/ss.avi路径。 2.NameNode 检查用阅读全文

posted @ 2021-07-06 21:22 rananie 阅读(92) 评论(0) 推荐(0)

HDFS03 HDFS的API操作

摘要：HDFS的API操作之前时用Shell的一写相关操作，集群内部操作。我们希望在Windows环境对远程的集群进行一个客户端访问，现在就在Windows环境上写代码，写HDFS客户端代码，远程连接上集群，对它们进行增删改查相关操作。客户端环境准备 1.下载windows支持的hadoop 2.配阅读全文

posted @ 2021-07-06 17:38 rananie 阅读(148) 评论(0) 推荐(0)

HDFS02 HDFS的Shell操作

摘要：HDFS的Shell操作(开发重点) 基本语法方式1: hadoop fs 具体命令方式2: hdfs dfs 具体命令常用命令一共分三大类命令：上传、下载、HDFS直接操作准备工作 1.启动Hadoop集群 [ranan@hadoop102 hadoop-3.1.3]$ myhadoop 阅读全文

posted @ 2021-06-29 21:56 rananie 阅读(122) 评论(0) 推荐(0)

HDFS01 概述

摘要：HDFS 概述 HDFS的产生背景和定义 HDFS产生背景解决海量数据的存储问题需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。 HDFS定义 HDFS（Hadoop Distributed File System），它是一个文件系统，用于阅读全文

posted @ 2021-06-29 17:09 rananie 阅读(81) 评论(0) 推荐(0)

Hadoop入门常见错误及解决方案

摘要：常见错误及解决方案 ResourceManager连接失败 INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032 可能原因 1.防火墙没关闭 2.没有启动YARN root用户和rana 阅读全文

posted @ 2021-06-25 22:17 rananie 阅读(629) 评论(0) 推荐(0)

Hadoop入门集群时间同步

摘要：集群时间同步 **如果服务器在公网环境(能连接外网)，可以不采用集群时间同步。**因为服务器会定期和公网时间进行校准。如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，导致集群执行任务时间不同步。时间服务器配置(必须root用户) 首先需要设置一个时间服务器作为基准，其阅读全文

posted @ 2021-06-25 21:48 rananie 阅读(148) 评论(0) 推荐(0)

Hadoop入门集群常用知识与常用脚本总结

摘要：集群常用知识与常用脚本总结集群启动/停止方式 ###1 各个模块分开启动/停止(常用) 配置ssh是前提整体启动/停止HDFS [ranan@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh [ranan@hadoop102 hadoop-3.1.3]$ sb 阅读全文

posted @ 2021-06-25 11:44 rananie 阅读(230) 评论(0) 推荐(0)

Hadoop入门完全分布式运行模式-集群配置

摘要：集群配置现在各个服务器的准备工作已经做好了，但是Hadoop之间是没有任何关系的集群部署规划 1.NameNode和SecondaryNameNode不要安装在同一台服务器，因为都耗内存。 2.ResourceManager也很小号内存，不要和NameNode、SecondaryNameNode 阅读全文

posted @ 2021-06-25 10:47 rananie 阅读(439) 评论(0) 推荐(0)

Hadoop入门集群崩溃的处理方法

摘要：集群崩溃的处理方法搞崩集群 hadoop102 hadoop103 hadoop104 此时HDFS Web端的文件是不可以下载的，因为三个副本都删除了。错误示范最先想到的是格式化集群 [ranan@hadoop102 hadoop-3.1.3]$ hdfs namenode -format 阅读全文

posted @ 2021-06-24 21:30 rananie 阅读(503) 评论(0) 推荐(0)

Hadoop入门完全分布式运行模式-准备

摘要：Hadoop运行环境 Local Mode：测试偶尔使用 Pseudo-Distributed Mode:用的少 Full-Distreibuted Mode：通常使用完全分布式运行模式（重点）任务： 1.准备三台客户机(关闭防火墙、静态IP、主机名称) √ 2.安装JDK 3.配置环境变量 4 阅读全文

posted @ 2021-06-23 11:51 rananie 阅读(204) 评论(0) 推荐(0)

Hadoop入门运行环境搭建

摘要：模板虚拟机 1 硬件说明: 1.hadoop100.vmdk生成的物理磁盘文件,为了方便管理放在hadoop100文件夹下。 2 操作系统磁盘分区：选择自定义-点击完成-进行分区 /boot 文件系统选ext4 swap 当内存不够时由此区域冒充硬盘网络和主机名 3 IP地址和主机名称需要进阅读全文

posted @ 2021-06-17 17:37 rananie 阅读(259) 评论(0) 推荐(0)

Hadoop入门概念

摘要：Hadoop是分布式系统基础架构,通常指Hadoop生态圈主要解决 1.海量数据的存储 2.海量数据的分析计算优势高可靠性:Hadoop底层维护多个数据副本，即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失高扩展性:在集群间分配任务数据,方便动态(原来的继续运行)增加删除节点阅读全文

posted @ 2021-05-23 17:03 rananie 阅读(75) 评论(0) 推荐(0)

随笔分类 - Hadoop

公告