随笔分类 -  hadoop

摘要:* Hadoop有哪些组件,分别介绍一下 Hadoop Common: 为其他Hadoop模块提供基础设施,包括文件系统、远程过程调用(RPC)和序列化机制。 Hadoop Distributed File System (HDFS): 分布式文件系统,可以存储大量数据,并且提供高吞吐量的数据访问。 阅读全文
posted @ 2024-09-13 09:30 dededea 阅读(41) 评论(0) 推荐(0)
摘要:2.mapreduce工作流程流程一流程二3.shuffle3.1.shuffle机制map方法之后,reduce方法之前的数据处理过程称之为shuffle3.2.分区3.3.writablecomparable排序(1)排序概述(2)排序分类3.4.combiner合并 阅读全文
posted @ 2024-09-12 09:21 dededea 阅读(25) 评论(0) 推荐(0)
摘要:4.输出数据outputformat接口实现类5.mapreduce内核源码解析5.1.maptask工作机制(1)read阶段:maptask通过inputformat获得的recordreader,从输出 inputsplit中解析一个个key/value5.2.reducetask工作机制5. 阅读全文
posted @ 2024-09-10 01:03 dededea 阅读(53) 评论(0) 推荐(0)
摘要:MR一.MR概述1.mr定义Mr是一个分布式运算程序的编程框架,是用户开发”基于hadoop的数据分析应 用”的核心框架Mr核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整地 分布式运算程序,并发运行在一个hadoop集群上2.mr优缺点2.1.优点(1)易于编程.用户只关心业务逻辑. 阅读全文
posted @ 2024-09-10 01:01 dededea 阅读(106) 评论(0) 推荐(0)
摘要:HDFS一.HDFS概述1.HDFS的产生背景和定义(1)HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到 更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系 统来管理多台机器上的文件,这就是分布式管理系统.HDFS只是分布式文 件管理系统中的一种(2) 阅读全文
posted @ 2024-09-09 15:18 dededea 阅读(59) 评论(0) 推荐(0)
摘要:Hadoop入门一.概念1.hadoop是什么 (1)Hadoop是一个由apache基金会所开发的分布式系统基础架构(2)主要解决,海量数据的存储和海量数据的分析计算问题(3)广义上来说,hadoop通常是指一个更广泛的概念--hadoop生态圈2.Hadoop发展历史(1)创始人Doug Cut 阅读全文
posted @ 2024-09-07 11:33 dededea 阅读(97) 评论(0) 推荐(0)