Hadoop - 随笔分类 - 阿伟宝座

Combiner编程、reduce join、map join、mapreduce优化总结、通过自定义分区类避免数据倾斜、MapReduce自定义排序

摘要：Combiner编程、reduce join、map join、mapreduce优化总结、通过自定义分区类避免数据倾斜、MapReduce自定义排序 Combiner编程 reduce join map join mapreduce优化总结通过自定义分区类避免数据倾斜 #每一个reduce任务生阅读全文

posted @ 2022-03-25 10:57 阿伟宝座阅读(88) 评论(0) 推荐(0)

常用的Writable实现类

摘要：常用的Writable实现类 Java基本类型 Writable 序列化大小(字节) 布尔型（boolean） BooleanWritable 1 字节型（byte） ByteWritable 1 整型（int） IntWritable 4 VIntWritable 1~5 浮点型（float） F 阅读全文

posted @ 2022-03-25 10:40 阿伟宝座阅读(143) 评论(0) 推荐(0)

什么是序列化？为什么要序列化？

摘要：什么是序列化？为什么要序列化？序列化(Serialization)：将对象的状态信息转换为可以存储或传输的形式的过程。在序列化期间，对象将其当前状态写入到临时或持久性存储区。以后，可以通过从存储区中读取或反序列化对象的状态，重新创建该对象。当两个进程在进行远程通信时，彼此可以发送各种类型的数阅读全文

posted @ 2022-03-25 09:46 阿伟宝座阅读(1034) 评论(0) 推荐(0)

MapReduce在Yarn上执行流程、Yarn核心组件功能、模拟ApplicationMaster发送Task、Map端的join

摘要：MapReduce在Yarn上执行流程、Yarn核心组件功能、模拟ApplicationMaster发送Task、Map端的join MapReduce在Yarn上执行流程 Yarn核心组件功能模拟ApplicationMaster发送Task 在MR中，MapTask、ReduceTask 都是阅读全文

posted @ 2022-02-16 22:06 阿伟宝座阅读(72) 评论(0) 推荐(0)

MapReduce原理深入理解3----WordCount程序流程图解、combiner（合并）程序示例、InputSplit切片详解

摘要：MapReduce原理深入理解3 WordCount程序流程图解、combiner（合并）程序示例、3、InputSplit切片详解 1、WordCount示例程序处理流程图解 2、combiner（合并）程序示例 combiner，发生在map阶段，又叫做预聚合；相当于map端的Reduce，因阅读全文

posted @ 2022-02-16 21:49 阿伟宝座阅读(487) 评论(0) 推荐(0)

MapReduce原理深入理解2----Map、Shuffle、Reduce过程详解

摘要：MapReduce原理深入理解2 Map、Shuffle、Reduce过程详解 1、MR执行过程-map阶段 map任务处理 1.1 框架使用InputFormat类的子类--FileInputFormat把输入文件(夹)划分为很多InputSplit，默认，每个HDFS的block对应一个Inp 阅读全文

posted @ 2022-02-16 20:22 阿伟宝座阅读(652) 评论(0) 推荐(0)

MapReduce的代码编写----学生数据和总分数据关联（join）

摘要：MapReduce的代码编写学生数据和总分数据关联（join）程序代码 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs 阅读全文

posted @ 2022-02-16 19:12 阿伟宝座阅读(126) 评论(0) 推荐(0)

MapReduce的代码编写----统计学生的总分示例

摘要：MapReduce的代码编写统计学生的总分示例 score.txt 1500100001,1000001,98 1500100001,1000002,5 1500100001,1000003,137 1500100001,1000004,29 1500100001,1000005,85 15001 阅读全文

posted @ 2022-02-16 15:07 阿伟宝座阅读(373) 评论(0) 推荐(0)

MapReduce的代码编写----统计学生性别示例

摘要：MapReduce的代码编写统计学生性别示例 student.txt 1500100001,施笑槐,22,女,文科六班 1500100002,吕金鹏,24,男,文科六班 1500100003,单乐蕊,22,女,理科六班 1500100004,葛德曜,24,男,理科三班 1500100005,宣谷芹阅读全文

posted @ 2022-02-16 11:15 阿伟宝座阅读(438) 评论(0) 推荐(0)

MapReduce原理深入理解1----shuff过程

摘要：MapReduce原理深入理解 1、主要原理（1）Map任务的数量由切片splite决定；Reduce的数量默认是一个，但是可以手动设置（2）MapReduce的输入和输出是基于HDFS的文件；切片splite使用类TestInputFormat将文件中的数据转化为<k1,v1>格式, 此时的阅读全文

posted @ 2022-02-14 23:00 阿伟宝座阅读(215) 评论(0) 推荐(0)

MapReduce的代码编写----wordCount示例

摘要：MR的代码编写 1、导入依赖  <dependency> <groupId>org.apache.hadoop</gro 阅读全文

posted @ 2022-02-14 19:55 阿伟宝座阅读(333) 评论(0) 推荐(0)

Hadoop的分布式计算----MapReduce概述

摘要：Hadoop的分布式计算 MapReduce 什么是MapReduce？你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapReduce方法则是： 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃，然后把这个数目汇报给你 3.你把所有玩家告阅读全文

posted @ 2022-02-13 19:45 阿伟宝座阅读(174) 评论(0) 推荐(0)

HDFS-HA搭建（一般用不到）

摘要：HDFS-HA搭建（一般用不到） 1、防火墙（搭建之前要关上） service firewalld stop 2、时间同步（前面做过了就不用再做了） yum install ntp ntpdate -u s2c.time.edu.cn 或者 date -s 20180503 3、免密钥登录配置 (远阅读全文

posted @ 2022-02-13 16:49 阿伟宝座阅读(71) 评论(0) 推荐(0)

ZooKeeper的介绍、搭建及简单使用

摘要：ZooKeeper的介绍、搭建及简单使用一、ZooKeeper简洁 1、zookeeper简介动物管理员 Apache ZooKeeper致力于开发和维护开源服务器，实现高度可靠的分布式协调。 2、什么是ZooKeeper？ ZooKeeper是一种集中式服务，用于维护配置信息，命名，提供分布式阅读全文

posted @ 2022-02-12 22:36 阿伟宝座阅读(219) 评论(0) 推荐(0)

HDFS的读写流程（用来理解 HDFS Java API ）

摘要：HDFS的读写流程（用来理解 HDFS Java API ） Client(客户端)读取多副本文件过程 RPC—远程过程调用协议 HDFS中的block、packet、chunk 数据存储->读文件读文件流程分析数据存储：写文件写文件流程分析阅读全文

posted @ 2022-02-12 22:34 阿伟宝座阅读(65) 评论(0) 推荐(0)

HDFS--Java--API

摘要：HDFS--Java--API 导入依赖--Maven仓库的官网(mvnrepository.com) 1、打开IDEA创建一个Hadoop项目 2、在Mpom.mxl中添加Hadoop2.7.6的依赖 <dependencies> <!-- https://mvnrepository.com/ar 阅读全文

posted @ 2022-02-12 22:33 阿伟宝座阅读(110) 评论(0) 推荐(0)

Hadoop的分布式存储----HDFS原理深入理解

摘要：HDFS原理深入理解 1、HDFS概述（1）数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。（2）是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上阅读全文

posted @ 2022-02-11 22:04 阿伟宝座阅读(432) 评论(0) 推荐(0)

Hadoop的HDFS组件的Xshell命令

摘要：Hadoop的HDFS组件的Xshell命令回顾：三大组件：HDFS、MR、Yarn 手动搭建好Hadoop集群后，MR这个进程是看不到的，只能看得到HDFS和Yarn的进程 HDFS和Yarn遵循主从架构： HDFS主节点：NameNode 简称NN Yarn主节点：ResourceManag 阅读全文

posted @ 2022-02-11 21:30 阿伟宝座阅读(414) 评论(0) 推荐(0)

Hadoop集群搭建（分布式版本）及其常见的操作命令

摘要：Hadoop集群搭建（分布式版本）及其常见的操作命令一、准备工作三台虚拟机：master、node1、node2 #克隆的时候选择完整克隆和链接克隆的区别完整克隆：克隆出两台独立的虚拟机链接克隆：依赖master，假如说把master删了，那么node1、node2就都挂了链接克隆阅读全文

posted @ 2022-02-11 19:17 阿伟宝座阅读(190) 评论(0) 推荐(0)

Hadoop的概述和特点

摘要：Hadoop的概述和特点 Hadoop官网：https://hadoop.apache.org 一、hadoop概述 1、服务器(节点) 可以理解为我们的一台笔记本/台式机，在这里可以认为是我们的一台虚拟机后面学习中，我们会把一台服务器称为一个节点一个公司里，会有很多服务器。尤其是hadoop集阅读全文

posted @ 2022-02-10 21:25 阿伟宝座阅读(1108) 评论(0) 推荐(0)

阿伟宝座

随笔分类 - Hadoop

公告