大数据分析：hadoop工具

一、hadoop工具

Hadoop介绍：

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

使用hadoop工具：

1> 安装hadoop工具：

# tar -xf hadoop-2.7.3.tar.gz
# mv hadoop-2.7.3 /usr/local/hadoop     //将解压后的hadoop安装文件移动位置，不移动应该也可以吧，有空可以试一试？
# ./bin/hadoop version
# rpm -qa |grep openjdk
# rpm -ql java-1.8.0-openjdk
# JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64/jre" //设置环境变量，会污染整个环境
# typeset -x JAVA_HOME      //将定义的变量放入环境变量    # unset JAVA_HOME    //取消定义变量JAVA_HOME
# JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64/jre" ./bin/hadoop version    //也可以变量的绝对路径方式引用变量执行命令

2> 修改hadoop环境变量的配置文件：

# vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
25 export JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64/jre" //将环境变量路径指定位置，hadoop基于java写的版本兼容性不好，版本不同位置可能不同
33 export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-"/usr/local/hadoop/etc/hadoop"} //将hadoop配置文件目录指定位置

3> 简单验证：利用hadoop工具统计一篇文档里面各个单词出现的次数

# cd /usr/local/hadoop
# ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar --help //查看这个块支持的命令
# ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount input/LICENSE.txt output //注意这里要保证input/LICENSE.txt目录下有这个文件，output目录文件夹事先不存在；统计后的单词列表会保存到output目录下；这里调用的是wordcount模块功能

posted @ 2018-02-28 21:19 百川汇海阅读(317) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

百川汇海

大数据分析：hadoop工具

公告