Hadoop是什么?

  hadoop是一个在集群中使用简单的处理程序模型来处理大数据集的分布式处理框架;被设计为从一台服务器可以增加到上千台服务器,每台服务器都拥有本地的计算和存储能力,而不是依赖于硬件的高可用传输(也就是说,集群中每台DataNode基本上都是处理本地存储的数据,而尽量避免从集群的其他服务器上传输数据到其他服务器进行计算);是一个能够检测和处理应用程序级别的失败,为集群提供高可用的失败重试机制的服务。

  Hadoop包含哪些组件?

  Hadoop包含NameNode和DataNode两种类型的节点;包含Hadoop Common、HDFS、YARN和MapReduce四大主要组件和其他依赖于Hadoop的组件,如hive,hbase,spark,pig,Tez,zookeeper,mahout等。

  为什么要使用hadoop?

  Hadoop提供了一个使用简单处理程序在分布式集群上快速处理大数据集的框架,使大数据集的处理速度可以通过增加服务器来提升;可以使用几乎所有的电脑资源(不一定是服务器,平时使用的旧式计算机也可以在集群中被有效的利用)

 

  暂时就想到这些,还有很多,如有不对或不懂的地方,请指正!

posted on 2015-09-13 23:14  呵呵鱼  阅读(171)  评论(0)    收藏  举报