Hadoop简述
一:什么是Hadoop?
(1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构
(2)主要解决海量数据的存储和计算问题
(3)广义来讲,Hadoop指的是Hadoop生态圈
二:Hadoop三大发行版本
(1)Apache:最基础原始的版本,适合入门学习
(2)Cloudera:在大型互联网企业中用的最多
(3)Hortonworks:文档好
三:Hadoop的优势
(1)高可靠性:Hadoop底层维护有多个数据副本,所以即使Hadoop上某台计算机(节点)的数据出了问题,也不会导致数据丢失
(2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点
(3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度
海量数据的计算是非常消耗性能的,一台计算机的内存是不够用的。Hadoop可以让多个节点的内存一起来计算,这样就能更快的计算。
(4)高容错性:能够自动将失败的任务重新分配
四:Hadoop组成
Hadoop组成在1版本和2版本是不同的,现在使用的是2.0以后的版本
Hadoop2.x将MapReduce的资源调度功能提取成一个新的模块放在Yarn里,这样·可以·减少耦合度。


浙公网安备 33010602011771号