Hadoop概述

标签（空格分隔）： hadoop

什么是Hadoop

Hadoop是基于Apache开源的分布式存储及分布式计算平台

![image.png-451.5kB][1]

Hadoop能做什么

分布式文件系统 HDFS

image.png-369.8kB

解释上图，/users/sameerp/data/part-0, r:2,{1,3},...，表明将part-0文件拆分为2个副本，id分别为1，3，在Datanodes中可以查找并合并成一个原始文件，part-1同理

资源调度系统YARN

image.png-370.9kB

基于YARN可以运行多种的框架和系统

分布式计算框架MapReduce

image.png-414kB

解释原型图片

'input' -> 'splitting' -> 'mapping' -> 'shuffling' -> 'Reducing' -> 'final result'
'输入' -> '分隔' -> '并行计算' -> '清洗' -> '汇总' -> '最终结果'

Hadoop优势之高扩展性

Hadoop优势之其他

狭义Hadoop VS 广义Hadoop

狭义的Hadoop:是一个适合大数据分布式存储（HDFS）、分布式计算(MapReduce)和资源调度(YARN)的平台
广义的Hadoop:指的是Hadoop生态系统，Hadoop生态系统是一个很庞大的概念，hadoop是其中最重要最基础的一个部分;生态系统中的每一个子系统只解决某个特定的问题域（甚至可能很窄），不搞统一型的一个全能系统，而是小而精的多个小系统

Hadoop生态系统的特点

Hadoop常用发行版及造型

&emps;本次课程使用cdh5.7.0

[1]: http://static.zybuluo.com/anyu/vi61d248bymp2j4d6jdro53w/image.png

posted on 2019-03-27 14:55 anyux 阅读(155) 评论(0) 收藏举报