初识hadoop

什么是Hadoop? 

   开源的,可靠的,可扩展,分布式的计算框架;可以搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务;(搜索引擎,日志分析,商业智能,数据分析)

hadoop的模块:

  Hadoop Common :

  HDFS:

  YARN:

  MapReduce:

 

Hadoop核心组件之分布式文件系统HDFS:

  源于Google的GFS论文,

  HDFS是GFS的克隆版

  HDFS特点:扩展性&容错性&海量数量存储

  将文件切分成指定大小的数据块并以多副本的存储在多个机器上

  数据切分,多副本、容错等操作对用户是透明的

Hadoop核心组件之资源调度系统YARn

  YARN:Yet Another Resource Negotiator

  负责整个集群资源的管理和调度

  YARN特点:扩展性&容错性&多框架资源统一调度

 

Hadoop核心组件之分布式计算框架MapReduce

  源于Google的MapReduce论文

  MapReduce特点:扩展性&容错性&海量数据离线处理

  

 

 Hadoop优势值高可靠性

  数据存储:数据块多副本

       数据计算:重新调度作业计算

Hadoop优势值高扩展性

  存储/计算资源不够是,可以横向扩展机器

  一个计算中可以包含数以千计的节点

Hadoop优势其他

  存在在廉价机器上,降低成本

  成熟的生态圈

 

Hadoop的生态系统

  

 

 

Hadoop常用发型办以及选型

  Apache Hadoop:只是解决了Hadoop单个框架里面的问题,如果用使用hive,MapReduce等综合起来使用或出现非常多的jia包冲突问题

  CDN:Cloudera Distributed Hadoop :安装容易,不用考虑jar冲突文件,文档优秀和speak合作很好,市场使用率百分之七十左右 下载地址:http://archive.cloudera.com/cdh5/cdh/5/ 

  HDP:Hortonworks Data Platform

 

posted @ 2018-12-02 15:23  zlAdmin  阅读(103)  评论(0)    收藏  举报