大数据技术与应用实验作业
一、实验目的
1.准确理解Mapreduce的设计原理
2.熟练掌握WordCount程序代码编写
3.学会自己编写WordCount程序进行词频统计
二、实验过程
1.切换目录到/apps/hadoop/sbin下,启动hadoop。
2.在linux上,创建一个目录/data/mapreduce1。
3.切换到/data/mapreduce1目录下,使用wget命令从网址 http://192.168.1.150:60000/allfiles/mapreduce1/buyer_favorite1,下载文本文件buyer_favorite1。
依然在/data/mapreduce1目录下,使用wget命令,从
http://192.168.1.150:60000/allfiles/mapreduce1/hadoop2lib.tar.gz,下载项目用到的依赖包。
将hadoop2lib.tar.gz解压到当前目录下。
4.将linux本地/data/mapreduce1/buyer_favorite1,上传到HDFS上的/mymapreduce1/in目录下。若HDFS目录不存在,需提前创建
5.打开Eclipse,新建Java Project项目。并将项目名设置为mapreduce1
6.在项目名mapreduce1下,新建package包。
并将包命名为mapreduce 。
7.在创建的包mapreduce下,新建类。并将类命名为WordCount。
8.添加项目所需依赖的jar包,右键单击项目名,新建一个目录hadoop2lib,用于存放项目所需的jar包。
将linux上/data/mapreduce1目录下,hadoop2lib目录中的jar包,全部拷贝到eclipse中,mapreduce1项目的hadoop2lib目录下。
选中hadoop2lib目录下所有的jar包,单击右键,选择Build Path=>Add to Build Path
9.编写Java代码,并描述其设计思路。
10.在WordCount类文件中,单击右键=>Run As=>Run on Hadoop选项,将MapReduce任务提交到Hadoop中。
11.待执行完毕后,打开终端或使用hadoop eclipse插件,查看hdfs上,程序输出的实验结果。
三、实验心得
通过章鱼学院的MapReduce WordCount实验,我深入理解了分布式计算的原理和Hadoop框架的工作机制。从环境配置到编写Mapper、Reducer核心代码,再到最终运行程序统计单词频率,这个经典案例让我直观体会到MapReduce"分而治之"的思想,即将大数据任务拆分为映射(Map)和归约(Reduce)两个阶段并行处理。实验不仅巩固了我的Java编程能力,更让我认识到大数据处理中分布式计算的重要性,为后续学习更复杂的分布式系统打下了坚实基础。
浙公网安备 33010602011771号