暑假第七周
分散->汇总模式
1.将数据分片,多台服务器各自负责一部分数据处理2.然后将各自的结果,进行汇总处理3.最终得到想要的计算结果
生活中的“人口普查”就是典型的分散汇总的分布式统计模式
中心调度->步骤执行模式:1.由一个节点作为中心调度管理者2.将任务划分为几个具体步骤3管理者安排每个机器执行任务
4.最终得到结果数据
生活中的各类项目的:项目经理和项目成员就是这种模式,一个管理分配任务,其余人员领取任务工作
分布式计算框架- MapReduce
MapReduce是“分散->汇总”模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。MapReduce提供了2个编程接口:
Map
Reduce
其中
Map功能接口提供了“分散”的功能,由服务器分布式对数据进行处理
Reduce功能接口提供了“汇总(聚合)”的能,将分布式的处理结果汇总统计用户如需使用MapReduce框架完成自定义需求的程序开发只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可
1.什么是MapReduce
MapReduce是Hadoop中的分布式计算组件
MapReduce可以以分散->汇总(聚合)模式执行分布式计算任务
2.MapReduce的主要编程接口
map接口,主要提供“分散”功能,由服务器分布式处理数据
reduce接口,主要提供“汇总”功能,进行数据汇总统计得到结果
MapReduce可供Java、Python等语言开发计算程序
注:MapReduce尽管可以通过Java.Puthon等语言进行程序开发,但当下年代基本没人会写它的代码了,因为太过时了。尽管MapReduce很老了,但现在仍旧活跃在一线,主要是Apache Hive框架非常火,而Hive底层就是使用的MapReduce。所以对于MapReduce的代码开发课程会简单扩展一下,但不会深入讲解,对MapReduce的底层原理会放在Hive之后,基于Hive做深入分析。