Fork me on GitHub
摘要: MapReduce框架原理 MapReduce核心思想 1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。 3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。 4)Ma 阅读全文
posted @ 2019-01-29 17:45 kris12 阅读(1011) 评论(0) 推荐(0)
摘要: 1. 计数器应用 2. 数据清洗(ETL) 在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。 LogMapper.java @Override protected void map(L 阅读全文
posted @ 2019-01-29 14:16 kris12 阅读(771) 评论(0) 推荐(0)
levels of contents