2021 年 12月随笔档案 - 贱贱的小帅哥

分布式数据库HBase

摘要：HBase 是一个开源的、分布式的、版本化的 NoSQL 数据库（也即非关系型数据库），它利用 Hadoop 分布式文件系统（Hadoop Distributed File System，HDFS）提供分布式数据存储。与传统的关系型数据库类似，HBase 也以表的形式组织数据，表也由行和列组成；不阅读全文

posted @ 2021-12-22 19:26 贱贱的小帅哥

数据仓库工具Hive

摘要：hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。 hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。 Hive的优点是学习阅读全文

posted @ 2021-12-22 09:50 贱贱的小帅哥

HDFS,YARN,MapReduce三者之间的关系

摘要：HDFS:DataNode存储数据，NameNode负责告诉别人数据存储在哪个节点，哪些信息，2NN，备份NameNode. YARN:整个集群资源的管理。 MapReduce: （1）分布式的运算程序往往需要分成至少 2 个阶段。（2）第一个阶段的 MapTask 并发实例，完全并行运行，互不相干阅读全文

posted @ 2021-12-21 09:58 贱贱的小帅哥

MapReduce核心编程思想

摘要：（1）分布式的运算程序往往需要分成至少 2 个阶段。（2）第一个阶段的 MapTask 并发实例，完全并行运行，互不相干。（3）第二个阶段的 ReduceTask 并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask 并发实例的输出。（4）MapReduce 编程模型只能包含一个 M 阅读全文

posted @ 2021-12-20 21:45 贱贱的小帅哥

HDFS读数据流程

摘要：(1) 客户端向NameNode发起RPC请求，来获取请求文件Block数据块所在的位置。 (2) NameNode检测元数据文件，会视情况返回Block块信息或者全部Block块信息，对于每个Block块，NameNode都会返回含有该Block副本的DataNode地址。 (3) 客户端会选取排阅读全文

posted @ 2021-12-20 20:55 贱贱的小帅哥

HDFS写数据流程

摘要：HDFS中的文件在物理上是分块存储（Block）,块的大小可以通过配置参数（dfs.blocksize）来规定，默认大小，2.X/3.X版本中是128M，1.X版本中是64M。128M指的是上限。 (1) 客户端发起文件上传请求，通过RPC(远程过程调用)与NameNode建立通讯。 (2) Nam 阅读全文

posted @ 2021-12-20 20:50 贱贱的小帅哥

HDFS组成架构

摘要：1)NameNode:就是Master,它是一个主管,管理者1 管理HDFS的名称空间;2 配置副本策略3 管理数据块(Block)映射信息4 处理客户端读写请求 2)DataNode:就是Slave,NameNode下达命令,DataNode执行实际的操作1 存储实际的数据块2 执行数据块的读/写阅读全文

posted @ 2021-12-20 20:30 贱贱的小帅哥

HDFS相关内容

摘要：HDFS定义：是一个文件系统，用于存储文件、通过目录树来定位文件，其次，他是分布式得，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。 HDFS主要使用场景：一次写入，多次读取。一个文件经过创建、写入和关闭之后就不需要改变。 HDFS特性： hdfs是一个分布式的文件系统，用于存储文件，阅读全文

posted @ 2021-12-20 20:20 贱贱的小帅哥

MapReduce架构概述

摘要：MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可阅读全文

posted @ 2021-12-20 16:05 贱贱的小帅哥

YARN架构概述

摘要：Apache Yarn（Yet Another Resource Negotiator的缩写）是hadoop集群资源管理器系统，是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台。而MapReduce等运算程序相当于运行于操作系统之上的应用程序。主要管理CPU和内存阅读全文

posted @ 2021-12-20 16:03 贱贱的小帅哥

HDFS架构概述

摘要：1、概念HDFS，它是一个文件系统(window电脑磁盘是NTFS)，用于存储文件，通过目录树来定位，其次它是分布式的，由很多服务器联合起来实现其功能，由很多服务器联合起来实现其功能HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过namenode申请来进行的HDFS的设计是个一阅读全文

posted @ 2021-12-20 15:57 贱贱的小帅哥

什么是 Java 序列化和反序列化，如何实现 Java 序列化

摘要：一、概念 java对象序列化的意思就是将对象的状态转化成字节流，以后可以通过这些值再生成相同状态的对象。对象序列化是对象持久化的一种实现方法，它是将对象的属性和方法转化为一种序列化的形式用于存储和传输。反序列化就是根据这些保存的信息重建对象的过程。序列化：将java对象转化为字节序列的过程。反序阅读全文

posted @ 2021-12-15 13:00 贱贱的小帅哥

贱贱的小帅哥

12 2021 档案

公告