摘要: 1.MapReduce的特点 软件框架、并行处理、可靠且容错、大规模集群、海量数据集 2.mapper和reducer mapper负责“分”:把复杂的任务分解为若干个“简单的任务”来处理。简单的任务包含三层含义: (1)数据或计算的规模相对原任务要大大缩小; (2)就近计算原则,任务会分配到存放着 阅读全文
posted @ 2018-01-27 19:57 M_study 阅读(414) 评论(0) 推荐(0) 编辑
摘要: 1.关于MapReduce MapReduce是一种可用于数据处理的编程模型,能够支持java、Python、C++等语言。MapReduce程序本质上是并行运行的,因此可以处理大规模数据集,这也是它的优势。 2.使用hadoop分析数据 hadoop提供了并行处理,我们将查询表示成MapReduc 阅读全文
posted @ 2018-01-27 19:55 M_study 阅读(9096) 评论(0) 推荐(0) 编辑
摘要: Hadoop IO的操作意义:基于海量数据集的完整性和压缩性,Hadoop提供了用于分布式系统的API,包括序列化操作以及底层的数据结构。 1.HDFS数据完整性 目的:保证用户在存储和处理数据时,数据不会有任何的丢失和损坏。 (1)校验和 检测数据的常见措施:在数据第一次引入系统时计算校验和(ch 阅读全文
posted @ 2018-01-27 08:39 M_study 阅读(556) 评论(0) 推荐(0) 编辑