hadoop一：hadoop介绍和安装

什么是hadoop

hadoop是一个开源的、可扩展的、分布式计算和存储的平台。

hadoop允许使用简单的编程模型，在集群中对大型数据进行分布式处理。

hadoop可以从单台服务器扩展到数千台，每个服务器提供本地的计算和存储。

haddop平台，可以检测和处理应用层的故障（高可靠，高容错）。

google公司有大量的数据，大量网页怎么存储(gfs)？搜索算法，搜索排名问题page-rank？

为了处理这些数据，google设计了：使用GFS存储数据，使用MAP-REDUCE处理数据，另一部数据的存储BIG-TABLE。

由于google的这些技术是闭源的，因此模仿google的技术和思想，出现了hadoop。

综合以下技术，用java开发了hadoop

使用大数据的行业：大量网站、电信运营商、IPTV收视与点播推荐、城市交通视频监控信息

安装hadoop，三种方式

安装单机版：

1.必须要安装java ：https://wiki.apache.org/hadoop/HadoopJavaVersions

2.必须要安装ssh

安装以上两个必须的软件

  $ sudo apt-get install ssh
  $ sudo apt-get install rsync

4.配置hadoop.

hadoop目录：

bin -- hadoop最基本的管理脚本和使用脚本所在目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用hadoop

sbin -- hadoop管理脚本所在目录，主要包含HDFS和YARN中的各类服务的启停

etc -- hadoop配置文件所在目录，包括core-site.xml、hdfs-site.xml、mapred-site.xml等从hadoop1.0继承而来的配置文件，和yarn-site.xml等2.0新增的配置文件

include -- 对外提供的编程库头文件（具体的动态库和静态库在lib目录中，这些头文件均使用c++定义的，通常用于c++程序访问HDFS或者编写MapReduce程序

lib -- 该目录包含了hadoop对外提供的编程动态库和静态库，与include目录中的头文件结合使用

libexec -- 各服务对应的shell配置文件所在目录，可用于配置日志输出目录、启动参数(如jvm参数)等基本信息

share：hadoop的doc文档，及hadoop各个模块编译后的jar包所在目录（源文件）。

posted on 2018-09-05 21:04 myworldworld 阅读(116) 评论(0) 收藏举报

刷新页面返回顶部