2018年7月17日

摘要: Hadoop的mapreduce是一个快速、高效、简单用于编写的并运行处理大数据程序并应用在大数据集群上的编程框架。它将复杂的、运行于大规模集群上的并行计算过程高度的抽象到两个函数:map、reduce。适用于MP来处理的数据集(或者任务),需要满足一个基本的要求:待处理的数据集可以分解成许多小的数 阅读全文

posted @ 2018-07-17 22:03 sir_Lijun 阅读(216) 评论(0) 推荐(0)

摘要: 1.1. Hadoop hdfs架构 hadoop分布式文件系统(hdfs)被设计成适合运行在通用硬件上的分布文件系统。hdfs是一个高度容错性的系统,适合部署在廉价的机器上(题外话:其实一点都不廉价,企业的服务器都挺贵的,所谓的廉价都是相对来说),能提供高吞吐的数据访问,适合大规模数据集上的应用。 阅读全文

posted @ 2018-07-17 22:00 sir_Lijun 阅读(165) 评论(0) 推荐(0)