赵鹏城 Zpc Blog 技术也是一种艺术形式

分布式 hadoop 中文分词系统 web后台架构 | 如果是为了谋生,那一个人只有去索取;但如果是为了生活,一个人必须要去奉献。

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

系统环境

  • Linux 10-2-5-234 2.6.9-67.ELsmp #1 SMP Wed Nov 7 13:56:44 EST 2007 x86_64 x86_64 x86_64 GNU/Linux
  • Red Hat Enterprise Linux AS release 4 (Nahant Update 6)
  • jdk-6uxx-linux-i586 
  • Apache Ant version 1.7.0 compiled on December 13 2006
  • Hadoop-0.20.1

1)     Java环境的安装与配置

从java.sun.com下载jdk-6uxx-linux-i586.bin。

解压java

设置环境变量

在profile 文件中加入:

$export PATH=/root/jdk1.6.0_14/bin:$PATH
$export JAVA_HOME=/root/jdk1.6.0_14

执行下面命令,让环境变量生效

测试java是否安装成功

看到以上信息证明你的java >已经安装成功

2) 安装Hadoop

从hadoop官网下载hadoop-0.20.1.tar.gz

在hadoop-env.sh 中添加export JAVA_HOME=/root/jdk1.6.0_14

测试hadoop是否安装成功

3) 配置单机环境下的hadoop

a) 编辑配置文件

b) 设置ssh为不需要手动输入密码的方式登陆

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

c)格式化一个新的分布式文件系统

$ cd hadoop-0.20.1
$ bin/hadoop namenode –format

d)启动 hadoop 进程。控制台上的输出信息应该显示启动了 namenode, datanode, secondary namenode, jobtracker, tasktracker。启动完成之后,通过 ps –ef 应该可以看到启动了5个新的 java 进程

 

$ bin/start-all.sh

$ ps –ef

 

 

e)运行 wordcount 应用 

 

$ cd hadoop-0.20.1

$ mkdir test-txt

$ cd test-txt

 

 

#在 test-txt 目录下创建两个文本文件, WordCount 程序将统计其中各个单词出现次数 

$ echo "hello world, bye , world." >file1.txt 
$ echo "hello hadoop, goodbye , hadoop" >file2.txt
$ cd ..
$ bin/hadoop dfs -put ./test-txt input

#将本地文件系统上的./test-txt目录拷到 HDFS 的根目录上,目录名改为 input
#执行 bin/hadoop dfs –help 可以学习各种 HDFS 命令的使用。 

 

$ bin/hadoop jar hadoop-0.20.1-examples.jar wordcount input output

 

 

#查看执行结果:
#将文件从 HDFS 拷到本地文件系统中再查看: 

 

$ bin/hadoop dfs -get output output

$ cat output/*

 

 

#也可以直接查看 

 

$ bin/hadoop dfs -cat output/*

$ bin/stop-all.sh #停止hadoop进程

 

 

f)运行效果 
posted on 2010-01-17 22:16  leon_zhao  阅读(3947)  评论(0编辑  收藏  举报