11 2021 档案
摘要:Yarn 资源调度器之生产环境核心参数 ResourceManager 相关 yarn.resourcemanager.scheduler.class 配置调度器,默认容量 yarn.resourcemanager.scheduler.client.thread-count ResourceMana
阅读全文
摘要:Yarn资源调度器之常用命令 准备 Yarn资源管理器对外提供的端口:8088 Hdfs对外提供的端口:9870 启动WordCount案例: hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcoun
阅读全文
摘要:Yarn 调度器和调度算法 目前,Hadoop 作业调度器主要有三种:FIFO、容量(Capacity)和公平(Fair Scheduler)。 Apache Hadoop3.1.3 默认的资源调度器是 Capacity Scheduler CDH 框架默认调度器是 Fair Scheduler 具
阅读全文
摘要:Yarn 资源调度器之工作机制 Yarn 基础架构 Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。 Yarn 主要由 ResourceManger、NodeManger、Appl
阅读全文
摘要:常见错误总结 导包容易出错。尤其 Text 和 CombineTextInputFormat。 Mapper 中第一个输入的参数必须是 LongWritable 或者 NullWritable,不可以是 IntWritable. 报的错误是类型转换异常。 java.lang.Exception: j
阅读全文
摘要:Hadoop 数据压缩 概述 压缩的好处和坏处 压缩的优点:以减少磁盘 IO、减少磁盘存储空间。 压缩的缺点:增加磁盘 CPU 开销。 压缩原则 运算密集型的 job,少用压缩 注意:在运算密集型任务中,cpu 的占用较多,如果采取压缩可能会降低 cpu 性能,影响主线。 IO 密集型的 Job,多
阅读全文
摘要:MapReduce 框架原理之开发总结 输入数据接口:InputFormat 默认使用的实现类:TextInputFormatTextInputFormat 的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为 key,行内容作为 value 返回。CombineTextInputFormat
阅读全文
摘要:MapReduce 框架原理之数据清洗(ETL) “ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库 在运行核心业
阅读全文
摘要:MapReduce 框架原理之 Join 应用 Reduce Join Map 端的主要工作:为来自不同表或文件的 key/value 对,打标签以区别来自不同来源的记录。然后用连接字段作为 key,其余部分和新加的标志作为 value,最后进行输出。 Reduce 端的主要工作:在 Reduce
阅读全文
摘要:MapReduce 框架原理之内核源码解析 MapTask 工作机制 「MapTask 工作机制图」 Read 阶段:MapTask 通过 InputFormat 获得的 RecordReader,从输出 InputSplit 中解析出一个个 key/value。 (1)以怎样的方式从分片中读取一条
阅读全文
摘要:MapReduce 框架原理之 OutputFormat 数据输入 OutputFormat 接口实现类 OutFormat 是 MapReduce 输出的基类,所有实现 MapReduce 输出都实现了 OutFormat 接口。 「1.OutputFormat 实现类」 FileOutputFo
阅读全文
摘要:MapReduce 框架原理之排序 WritableComparable排序 概述 排序是 MapReduce 框架中最重要的操作之一。 注意 MapTask 和 ReduceTask 均会对数据按照 Key 进行排序。该操作属于 Hadoop 的默认行为。任何应用程序中的数据均会被排序,而不管逻辑
阅读全文
摘要:MapReduce 框架原理之 Shuffle 机制(1) Shuff 机制 概念 Map 方法之后,Reduce 方法之前的数据处理过程称之为 Shuffle 图解 Shuffle机制 Partition 分区 问题引出 要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属
阅读全文

浙公网安备 33010602011771号