12 2021 档案
摘要:HBase 是一个开源的、分布式的、版本化的 NoSQL 数据库(也即非关系型数据库),它利用 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)提供分布式数据存储。 与传统的关系型数据库类似,HBase 也以表的形式组织数据,表也由行和列组成;不
阅读全文
posted @ 2021-12-22 19:26
贱贱的小帅哥
摘要:hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。 hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。 Hive的优点是学习
阅读全文
posted @ 2021-12-22 09:50
贱贱的小帅哥
摘要:HDFS:DataNode存储数据,NameNode负责告诉别人数据存储在哪个节点,哪些信息,2NN,备份NameNode. YARN:整个集群资源的管理。 MapReduce: (1)分布式的运算程序往往需要分成至少 2 个阶段。(2)第一个阶段的 MapTask 并发实例,完全并行运行,互不相干
阅读全文
posted @ 2021-12-21 09:58
贱贱的小帅哥
摘要:(1)分布式的运算程序往往需要分成至少 2 个阶段。(2)第一个阶段的 MapTask 并发实例,完全并行运行,互不相干。(3)第二个阶段的 ReduceTask 并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask 并发实例的输出。(4)MapReduce 编程模型只能包含一个 M
阅读全文
posted @ 2021-12-20 21:45
贱贱的小帅哥
摘要:(1) 客户端向NameNode发起RPC请求,来获取请求文件Block数据块所在的位置。 (2) NameNode检测元数据文件,会视情况返回Block块信息或者全部Block块信息,对于每个Block块,NameNode都会返回含有该Block副本的DataNode地址。 (3) 客户端会选取排
阅读全文
posted @ 2021-12-20 20:55
贱贱的小帅哥
摘要:HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小,2.X/3.X版本中是128M,1.X版本中是64M。128M指的是上限。 (1) 客户端发起文件上传请求,通过RPC(远程过程调用)与NameNode建立通讯。 (2) Nam
阅读全文
posted @ 2021-12-20 20:50
贱贱的小帅哥
摘要:1)NameNode:就是Master,它是一个主管,管理者1 管理HDFS的名称空间;2 配置副本策略3 管理数据块(Block)映射信息4 处理客户端读写请求 2)DataNode:就是Slave,NameNode下达命令,DataNode执行实际的操作1 存储实际的数据块2 执行数据块的读/写
阅读全文
posted @ 2021-12-20 20:30
贱贱的小帅哥
摘要:HDFS定义:是一个文件系统,用于存储文件、通过目录树来定位文件,其次,他是分布式得,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS主要使用场景:一次写入,多次读取。一个文件经过创建、写入和关闭之后就不需要改变。 HDFS特性: hdfs是一个分布式的文件系统,用于存储文件,
阅读全文
posted @ 2021-12-20 20:20
贱贱的小帅哥
摘要:MapReduce是一个分布式运算程序的编程框架,是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可
阅读全文
posted @ 2021-12-20 16:05
贱贱的小帅哥
摘要:Apache Yarn(Yet Another Resource Negotiator的缩写)是hadoop集群资源管理器系统,是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台。而MapReduce等运算程序相当于运行于操作系统之上的应用程序。主要管理CPU和内存
阅读全文
posted @ 2021-12-20 16:03
贱贱的小帅哥
摘要:1、概念HDFS,它是一个文件系统(window电脑磁盘是NTFS),用于存储文件,通过目录树来定位,其次它是分布式的,由很多服务器联合起来实现其功能,由很多服务器联合起来实现其功能HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过namenode申请来进行的HDFS的设计是个一
阅读全文
posted @ 2021-12-20 15:57
贱贱的小帅哥
摘要:一、概念 java对象序列化的意思就是将对象的状态转化成字节流,以后可以通过这些值再生成相同状态的对象。对象序列化是对象持久化的一种实现方法,它是将对象的属性和方法转化为一种序列化的形式用于存储和传输。反序列化就是根据这些保存的信息重建对象的过程。 序列化:将java对象转化为字节序列的过程。 反序
阅读全文
posted @ 2021-12-15 13:00
贱贱的小帅哥