hadoop一:hadoop介绍和安装

什么是hadoop

hadoop是一个开源的、可扩展的、分布式计算和存储的平台。

hadoop允许使用简单的编程模型,在集群中对大型数据进行分布式处理。

hadoop可以从单台服务器扩展到数千台,每个服务器提供本地的计算和存储。

haddop平台,可以检测和处理应用层的故障(高可靠,高容错)。

hadoop由来

google公司有大量的数据,大量网页怎么存储(gfs)?搜索算法,搜索排名问题page-rank?

为了处理这些数据,google设计了:使用GFS存储数据,使用MAP-REDUCE处理数据,另一部数据的存储BIG-TABLE。

由于google的这些技术是闭源的,因此模仿google的技术和思想,出现了hadoop。

 

综合以下技术,用java开发了hadoop

  • apache Lucene:开源的高性能全文检索工具包
  • apache nutch:开源的web搜索引擎
  • google的三大论文:mapduce、gps、bigtable

 

使用大数据的行业:大量网站、电信运营商、IPTV收视与点播推荐、城市交通视频监控信息

 

安装hadoop,三种方式

安装单机版:

1.必须要安装java :https://wiki.apache.org/hadoop/HadoopJavaVersions

2.必须要安装ssh

安装以上两个必须的软件

  $ sudo apt-get install ssh
  $ sudo apt-get install rsync

 

3.下载hadoop并解压 :http://mirror.bit.edu.cn/apache/hadoop/common/

4.配置hadoop.

 

hadoop目录:

bin -- hadoop最基本的管理脚本和使用脚本所在目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用hadoop

sbin -- hadoop管理脚本所在目录,主要包含HDFS和YARN中的各类服务的启停

etc -- hadoop配置文件所在目录,包括core-site.xml、hdfs-site.xml、mapred-site.xml等从hadoop1.0继承而来的配置文件,和yarn-site.xml等2.0新增的配置文件

include -- 对外提供的编程库头文件(具体的动态库和静态库在lib目录中,这些头文件均使用c++定义的,通常用于c++程序访问HDFS或者编写MapReduce程序

lib -- 该目录包含了hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用

libexec -- 各服务对应的shell配置文件所在目录,可用于配置日志输出目录、启动参数(如jvm参数)等基本信息

share:hadoop的doc文档,及hadoop各个模块编译后的jar包所在目录(源文件)。

 

posted on 2018-09-05 21:04  myworldworld  阅读(98)  评论(0)    收藏  举报

导航