25.1.24(Map Reduce1)
1. 原理剖析
MapReduce 是 Hadoop 的核心组件之一,它将大规模数据集的处理过程分为两个阶段:Map 阶段和 Reduce 阶段。
在 Map 阶段,数据被分割成多个小的数据集,每个数据集由一个 Map 任务进行处理。Map 任务会对输入的数据进行解析和转换,将其转换为键值对(<key, value>)的形式,并输出中间结果。例如,在一个单词计数的案例中,Map 任务会将输入的文本文件中的每一行数据拆分成单词,然后输出每个单词及其出现次数为 1 的键值对,如 <"hello", 1>、<"world", 1 > 等。
Reduce 阶段则对 Map 阶段输出的中间结果进行合并和汇总。Reduce 任务会接收具有相同键的键值对列表,并根据用户定义的逻辑对这些值进行合并操作。在单词计数的案例中,Reduce 任务会将相同单词的出现次数进行累加,最终得到每个单词的总出现次数,如 <"hello", 5>、<"world", 3 > 等。

浙公网安备 33010602011771号