hadoop一:hadoop介绍和安装
什么是hadoop
hadoop是一个开源的、可扩展的、分布式计算和存储的平台。
hadoop允许使用简单的编程模型,在集群中对大型数据进行分布式处理。
hadoop可以从单台服务器扩展到数千台,每个服务器提供本地的计算和存储。
haddop平台,可以检测和处理应用层的故障(高可靠,高容错)。
hadoop由来
google公司有大量的数据,大量网页怎么存储(gfs)?搜索算法,搜索排名问题page-rank?
为了处理这些数据,google设计了:使用GFS存储数据,使用MAP-REDUCE处理数据,另一部数据的存储BIG-TABLE。
由于google的这些技术是闭源的,因此模仿google的技术和思想,出现了hadoop。
综合以下技术,用java开发了hadoop
- apache Lucene:开源的高性能全文检索工具包
- apache nutch:开源的web搜索引擎
- google的三大论文:mapduce、gps、bigtable
使用大数据的行业:大量网站、电信运营商、IPTV收视与点播推荐、城市交通视频监控信息
安装hadoop,三种方式
- Local (Standalone) Mode
- 单机版,用于测试、故障检测。
- Pseudo-Distributed Mode
- 伪集群
- Fully-Distributed Mode
- 集群
安装单机版:
1.必须要安装java :https://wiki.apache.org/hadoop/HadoopJavaVersions
2.必须要安装ssh
安装以上两个必须的软件
$ sudo apt-get install ssh $ sudo apt-get install rsync
3.下载hadoop并解压 :http://mirror.bit.edu.cn/apache/hadoop/common/
4.配置hadoop.
hadoop目录:
bin -- hadoop最基本的管理脚本和使用脚本所在目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用hadoop
sbin -- hadoop管理脚本所在目录,主要包含HDFS和YARN中的各类服务的启停
etc -- hadoop配置文件所在目录,包括core-site.xml、hdfs-site.xml、mapred-site.xml等从hadoop1.0继承而来的配置文件,和yarn-site.xml等2.0新增的配置文件
include -- 对外提供的编程库头文件(具体的动态库和静态库在lib目录中,这些头文件均使用c++定义的,通常用于c++程序访问HDFS或者编写MapReduce程序
lib -- 该目录包含了hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用
libexec -- 各服务对应的shell配置文件所在目录,可用于配置日志输出目录、启动参数(如jvm参数)等基本信息
share:hadoop的doc文档,及hadoop各个模块编译后的jar包所在目录(源文件)。
posted on 2018-09-05 21:04 myworldworld 阅读(98) 评论(0) 收藏 举报