azure011328

导航

 

大数据技术与应用实验作业

      

一、实验目的

1.准确理解Mapreduce的设计原理

2.熟练掌握WordCount程序代码编写

3.学会自己编写WordCount程序进行词频统计

 

二、实验过程

1.切换目录到/apps/hadoop/sbin下,启动hadoop

 

2.在linux上,创建一个目录/data/mapreduce1。

 

3.切换到/data/mapreduce1目录下,使用wget命令从网址 http://192.168.1.150:60000/allfiles/mapreduce1/buyer_favorite1,下载文本文件buyer_favorite1

 

 

依然在/data/mapreduce1目录下,使用wget命令,从

 

http://192.168.1.150:60000/allfiles/mapreduce1/hadoop2lib.tar.gz,下载项目用到的依赖包。

 

hadoop2lib.tar.gz解压到当前目录下。

 

4.linux本地/data/mapreduce1/buyer_favorite1,上传到HDFS上的/mymapreduce1/in目录下。若HDFS目录不存在,需提前创建

 

5.打开Eclipse,新建Java Project项目。并将项目名设置为mapreduce1

 

6.在项目名mapreduce1下,新建package包。

并将包命名为mapreduce

 

7.在创建的包mapreduce下,新建类。并将类命名为WordCount

8.添加项目所需依赖的jar包,右键单击项目名,新建一个目录hadoop2lib,用于存放项目所需的jar包。

 

linux/data/mapreduce1目录下,hadoop2lib目录中的jar包,全部拷贝到eclipse中,mapreduce1项目的hadoop2lib目录下。

 

选中hadoop2lib目录下所有的jar包,单击右键,选择Build Path=>Add to Build Path

 

9.编写Java代码,并描述其设计思路。

 

10.WordCount类文件中,单击右键=>Run As=>Run on Hadoop选项,将MapReduce任务提交到Hadoop中。

 

11.待执行完毕后,打开终端或使用hadoop eclipse插件,查看hdfs上,程序输出的实验结果。

 

 

三、实验心得

通过章鱼学院的MapReduce WordCount实验,我深入理解了分布式计算的原理和Hadoop框架的工作机制。从环境配置到编写MapperReducer核心代码,再到最终运行程序统计单词频率,这个经典案例让我直观体会到MapReduce"分而治之"的思想,即将大数据任务拆分为映射(Map)和归约(Reduce)两个阶段并行处理。实验不仅巩固了我的Java编程能力,更让我认识到大数据处理中分布式计算的重要性,为后续学习更复杂的分布式系统打下了坚实基础。

posted on 2025-06-11 08:50  淮竹i  阅读(6)  评论(0)    收藏  举报