初识hadoop
什么是Hadoop?
开源的,可靠的,可扩展,分布式的计算框架;可以搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务;(搜索引擎,日志分析,商业智能,数据分析)
hadoop的模块:
Hadoop Common :
HDFS:
YARN:
MapReduce:
Hadoop核心组件之分布式文件系统HDFS:
源于Google的GFS论文,
HDFS是GFS的克隆版
HDFS特点:扩展性&容错性&海量数量存储
将文件切分成指定大小的数据块并以多副本的存储在多个机器上
数据切分,多副本、容错等操作对用户是透明的
Hadoop核心组件之资源调度系统YARn
YARN:Yet Another Resource Negotiator
负责整个集群资源的管理和调度
YARN特点:扩展性&容错性&多框架资源统一调度

Hadoop核心组件之分布式计算框架MapReduce
源于Google的MapReduce论文
MapReduce特点:扩展性&容错性&海量数据离线处理

Hadoop优势值高可靠性
数据存储:数据块多副本
数据计算:重新调度作业计算
Hadoop优势值高扩展性
存储/计算资源不够是,可以横向扩展机器
一个计算中可以包含数以千计的节点
Hadoop优势其他
存在在廉价机器上,降低成本
成熟的生态圈
Hadoop的生态系统

Hadoop常用发型办以及选型
Apache Hadoop:只是解决了Hadoop单个框架里面的问题,如果用使用hive,MapReduce等综合起来使用或出现非常多的jia包冲突问题
CDN:Cloudera Distributed Hadoop :安装容易,不用考虑jar冲突文件,文档优秀和speak合作很好,市场使用率百分之七十左右 下载地址:http://archive.cloudera.com/cdh5/cdh/5/
HDP:Hortonworks Data Platform

浙公网安备 33010602011771号