一、实验目的

1.准确理解Mapreduce的设计原理

2.熟练掌握WordCount程序代码编写

3.学会自己编写WordCount程序进行词频统计

二、实验过程

1.切换目录到/apps/hadoop/sbin下，启动hadoop。

2.在linux上，创建一个目录/data/mapreduce1。

3.切换到/data/mapreduce1目录下，使用wget命令从网址 http://192.168.1.150:60000/allfiles/mapreduce1/buyer_favorite1，下载文本文件buyer_favorite1。

依然在/data/mapreduce1目录下，使用wget命令，从

http://192.168.1.150:60000/allfiles/mapreduce1/hadoop2lib.tar.gz，下载项目用到的依赖包。

将hadoop2lib.tar.gz解压到当前目录下。

4.将linux本地/data/mapreduce1/buyer_favorite1，上传到HDFS上的/mymapreduce1/in目录下。若HDFS目录不存在，需提前创建

5.打开Eclipse，新建Java Project项目。并将项目名设置为mapreduce1

6.在项目名mapreduce1下，新建package包。

并将包命名为mapreduce 。

7.在创建的包mapreduce下，新建类。并将类命名为WordCount。

8.添加项目所需依赖的jar包，右键单击项目名，新建一个目录hadoop2lib，用于存放项目所需的jar包。

将linux上/data/mapreduce1目录下，hadoop2lib目录中的jar包，全部拷贝到eclipse中，mapreduce1项目的hadoop2lib目录下。

选中hadoop2lib目录下所有的jar包，单击右键，选择Build Path=>Add to Build Path

9.编写Java代码，并描述其设计思路。

10.在WordCount类文件中，单击右键=>Run As=>Run on Hadoop选项，将MapReduce任务提交到Hadoop中。

11.待执行完毕后，打开终端或使用hadoop eclipse插件，查看hdfs上，程序输出的实验结果。

三、实验心得

通过章鱼学院的MapReduce WordCount实验，我深入理解了分布式计算的原理和Hadoop框架的工作机制。从环境配置到编写Mapper、Reducer核心代码，再到最终运行程序统计单词频率，这个经典案例让我直观体会到MapReduce"分而治之"的思想，即将大数据任务拆分为映射(Map)和归约(Reduce)两个阶段并行处理。实验不仅巩固了我的Java编程能力，更让我认识到大数据处理中分布式计算的重要性，为后续学习更复杂的分布式系统打下了坚实基础。

posted on 2025-06-11 08:50 淮竹i 阅读(7) 评论(0) 收藏举报

刷新页面返回顶部

导航

一、实验目的

二、实验过程

三、实验心得