一、hadoop的特性

  hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可申缩的方式进行处理,它具有以下几个方面的特性。

  (1)高可靠性。采用冗余数据储存方式。

  (2)高效性。作为并行分布式计算平台,hadoop采用分布式储存和分布式处理量大核心技术,能够高效的处理PB级数据。

  (3)高扩展性。hadoop的设计目标是可以高效稳定的运行在廉价的计算机集群上,可以扩展到数以计千的计算机节点上。

  (4)高容错性。采用冗余数据储存方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。

  (5)成本低。hadoop采用廉价的计算机集群,成本低,普通用户也容易用自己的PC搭建hadoop运行环境。

 

1.学习大数据首先我们要先安装好虚拟机,以配合hadoop的执行。列如,windows在运行hadoop时,需要安装Cygwin等软件。

我们这里选择Linux作为系统平台,来演示在计算机上如何安装hadoop,运行程序并得到最终结果。

2.Linux发行版的选择更倾向使用企业级的,稳定的操作系统作为实验的系统环境。考虑到易用性和免费性我们一般排除OpenSUSE和RedHat等发行版

最终选择Ubuntu左面版作为操作系统

3.hadoop基本安装配置主要包括一下5个步骤:

(1)创建hadoop用户

(2)安装java

(3)设置ssh登录权限

(4)单机安装配置

(5)伪分布式安装配置

 

posted on 2019-09-17 22:13  cml0  阅读(336)  评论(0)    收藏  举报