返回顶部

MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算

MapReduce框架

  • MapReduce将复杂的,运行大规模集群上的并行计算过程高度地抽象两个函数:Map和Reduce
  • MapReduce采用“分而治之”策略,将一个分布式文件系统中的大规模数据集,分成许多独立的分片。这些分片可以被多个Map任务并行处理。
  • MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,原因是,移动数据需要大量的网络传输开销
  • MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave,Master上运行JobTracker,Slave运行TaskTracker
  • Hadoop框架是用JAVA来写的,但是,MapReduce应用程序则不一定要用Java来写。
posted @ 2020-03-31 16:04  Be-myself  阅读(221)  评论(0编辑  收藏  举报
levels of contents 点击查看具体代码内容