一

数据产生的速度是指数增长的
硬盘传输速度提速太慢
大多数分析任务需要以某种方式结合大部分数据来共同完成分析（从一个硬盘读取的数据可能需要从另外99个硬盘中读取的数据综合使用）
HDFS和MapReduce是Hadoop的核心

优势

Mapreduce是一个批量查询处理器，解放了硬盘上的数据
MapReduce比较适合以批处理方式处理整个数据集的问题，尤其是动态分析。关系型数据库管理系统（RDBMS）适用于点查询和更新。 MapReduce适合一次写入，多次读取数据的应用
关系型数据库则更适合持续更新的数据集。
关系型数据库适合结构化数据
MapReduce适合非结构化数据，因为它在处理数据时才对数据进行解释
MapReduce是一种线性的可伸缩编程模型(集群是原来的两倍，速度也是原理的两倍)

网格计算

高性能计算(HPC)和网格计算(GC)主要使用类似于消息传递接口(MPI)的API，比较使用于计算密集型的作业。MPI比较低层，需要程序员显示控制数据流机制。
MapReuce尽量在计算节点上存储数据，以实现数据的本地快速访问。数据本地化的特性是MAPReduce的核心特征。网络带宽是数据中心环境最珍贵的资源
MapReduce各个任务之间是独立的(无共享)

志愿计算

志愿计算项目将问题分成很多块。每一块称为一个工作单元，发到世界各地的计算机上进行分析。完成分析后，结果发送回服务器
表面上MapReduce与之相似，但有很多明显的差异。志愿计算的问题通常是CPU高度密集的，计算机是别人的不可信的，计算机的网络带宽不同，对数据本地化也没要求
与MapReduce的三大设计目标相比：1.为只需要短短几分钟或几个小时就可以完成的作业提供服务
2.运行于同一个内部有高速网络连接的数据中心内
3.数据中心内的计算机都是可靠的，定制的硬件。

Common:一系列组件和接口，用于分布式文件系统和通用I/O
Avro:一种序列化系统
MapReduce：分布式数据处理模型和执行环节
HDFS:分布式文件系统
Pig:数据流语言和运行环境，Pig运行在MapReduce和HDFS集群上
Hive:数据仓库，Hive管理HDFS中存储的数据，并提供基于SQL的查询语言用于查询数据
HBase:数据库。HBase使用HDFS作为底层存储，同时支持MAPReduce的批量式计算和点查询(随机读取)
ZooKeeper:一种分布式的，可用性高的协调服务，ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用
Sqoop:该工具用于在结构化数据存储(如关系型数据库)和HDFS之间搞笑批量传输数据
Oozie:该服务用于运行和调度Hadoop作业

posted @ 2018-03-29 20:27 blog_hfg 阅读(180) 评论(0) 收藏举报

刷新页面返回顶部

blog_hfg

一

优势

网格计算

志愿计算

公告