一、hadoop的特性
hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可申缩的方式进行处理,它具有以下几个方面的特性。
(1)高可靠性。采用冗余数据储存方式。
(2)高效性。作为并行分布式计算平台,hadoop采用分布式储存和分布式处理量大核心技术,能够高效的处理PB级数据。
(3)高扩展性。hadoop的设计目标是可以高效稳定的运行在廉价的计算机集群上,可以扩展到数以计千的计算机节点上。
(4)高容错性。采用冗余数据储存方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。
(5)成本低。hadoop采用廉价的计算机集群,成本低,普通用户也容易用自己的PC搭建hadoop运行环境。
1.学习大数据首先我们要先安装好虚拟机,以配合hadoop的执行。列如,windows在运行hadoop时,需要安装Cygwin等软件。
我们这里选择Linux作为系统平台,来演示在计算机上如何安装hadoop,运行程序并得到最终结果。
2.Linux发行版的选择更倾向使用企业级的,稳定的操作系统作为实验的系统环境。考虑到易用性和免费性我们一般排除OpenSUSE和RedHat等发行版
最终选择Ubuntu左面版作为操作系统
3.hadoop基本安装配置主要包括一下5个步骤:
(1)创建hadoop用户
(2)安装java
(3)设置ssh登录权限
(4)单机安装配置
(5)伪分布式安装配置
浙公网安备 33010602011771号