随笔分类 - Hadoop
1
摘要:Combiner编程、reduce join、map join、mapreduce优化总结、通过自定义分区类避免数据倾斜、MapReduce自定义排序 Combiner编程 reduce join map join mapreduce优化总结 通过自定义分区类避免数据倾斜 #每一个reduce任务生
阅读全文
摘要:常用的Writable实现类 Java基本类型 Writable 序列化大小(字节) 布尔型(boolean) BooleanWritable 1 字节型(byte) ByteWritable 1 整型(int) IntWritable 4 VIntWritable 1~5 浮点型(float) F
阅读全文
摘要:什么是序列化?为什么要序列化? 序列化(Serialization):将对象的状态信息转换为可以存储或传输的形式的过程。 在序列化期间,对象将其当前状态写入到临时或持久性存储区。 以后,可以通过从存储区中读取或反序列化对象的状态,重新创建该对象。 当两个进程在进行远程通信时,彼此可以发送各种类型的数
阅读全文
摘要:MapReduce在Yarn上执行流程、Yarn核心组件功能、模拟ApplicationMaster发送Task、Map端的join MapReduce在Yarn上执行流程 Yarn核心组件功能 模拟ApplicationMaster发送Task 在MR中,MapTask、ReduceTask 都是
阅读全文
摘要:MapReduce原理深入理解3 WordCount程序流程图解、combiner(合并)程序示例、3、InputSplit切片详解 1、WordCount示例程序处理流程图解 2、combiner(合并)程序示例 combiner,发生在map阶段,又叫做预聚合; 相当于map端的Reduce,因
阅读全文
摘要:MapReduce原理深入理解2 Map、Shuffle、Reduce过程详解 1、MR执行过程-map阶段 map任务处理 1.1 框架使用InputFormat类的子类--FileInputFormat把输入文件(夹)划分为很多InputSplit, 默认,每个HDFS的block对应一个Inp
阅读全文
摘要:MapReduce的代码编写 学生数据和总分数据关联(join) 程序代码 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs
阅读全文
摘要:MapReduce的代码编写 统计学生的总分示例 score.txt 1500100001,1000001,98 1500100001,1000002,5 1500100001,1000003,137 1500100001,1000004,29 1500100001,1000005,85 15001
阅读全文
摘要:MapReduce的代码编写 统计学生性别示例 student.txt 1500100001,施笑槐,22,女,文科六班 1500100002,吕金鹏,24,男,文科六班 1500100003,单乐蕊,22,女,理科六班 1500100004,葛德曜,24,男,理科三班 1500100005,宣谷芹
阅读全文
摘要:MapReduce原理深入理解 1、主要原理 (1)Map任务的数量由切片splite决定;Reduce的数量默认是一个,但是可以手动设置 (2)MapReduce的输入和输出是基于HDFS的文件; 切片splite使用类TestInputFormat将文件中的数据转化为<k1,v1>格式, 此时的
阅读全文
摘要:MR的代码编写 1、导入依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-mapreduce-client-core --> <dependency> <groupId>org.apache.hadoop</gro
阅读全文
摘要:Hadoop的分布式计算 MapReduce 什么是MapReduce? 你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你 3.你把所有玩家告
阅读全文
摘要:HDFS-HA搭建(一般用不到) 1、防火墙(搭建之前要关上) service firewalld stop 2、时间同步(前面做过了就不用再做了) yum install ntp ntpdate -u s2c.time.edu.cn 或者 date -s 20180503 3、免密钥登录配置 (远
阅读全文
摘要:ZooKeeper的介绍、搭建及简单使用 一、ZooKeeper简洁 1、zookeeper简介 动物管理员 Apache ZooKeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调。 2、什么是ZooKeeper? ZooKeeper是一种集中式服务,用于维护配置信息,命名,提供分布式
阅读全文
摘要:HDFS的读写流程(用来理解 HDFS Java API ) Client(客户端)读取多副本文件过程 RPC—远程过程调用协议 HDFS中的block、packet、chunk 数据存储->读文件 读文件流程分析 数据存储:写文件 写文件流程分析
阅读全文
摘要:HDFS--Java--API 导入依赖--Maven仓库的官网(mvnrepository.com) 1、打开IDEA创建一个Hadoop项目 2、在Mpom.mxl中添加Hadoop2.7.6的依赖 <dependencies> <!-- https://mvnrepository.com/ar
阅读全文
摘要:HDFS原理深入理解 1、HDFS概述 (1)数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 (2)是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上
阅读全文
摘要:Hadoop的HDFS组件的Xshell命令 回顾: 三大组件:HDFS、MR、Yarn 手动搭建好Hadoop集群后,MR这个进程是看不到的,只能看得到HDFS和Yarn的进程 HDFS和Yarn遵循主从架构: HDFS主节点:NameNode 简称NN Yarn主节点:ResourceManag
阅读全文
摘要:Hadoop集群搭建(分布式版本)及其常见的操作命令 一、准备工作 三台虚拟机:master、node1、node2 #克隆的时候选择 完整克隆 和 链接克隆 的区别 完整克隆:克隆出两台独立的虚拟机 链接克隆:依赖master,假如说把master删了,那么node1、node2就都挂了 链接克隆
阅读全文
摘要:Hadoop的概述和特点 Hadoop官网:https://hadoop.apache.org 一、hadoop概述 1、服务器(节点) 可以理解为我们的一台笔记本/台式机,在这里可以认为是我们的一台虚拟机 后面学习中,我们会把一台服务器称为一个节点 一个公司里,会有很多服务器。尤其是hadoop集
阅读全文
1

浙公网安备 33010602011771号