MapReduce实现词频统计

大数据技术与应用实验作业

实验名称:MapReduce实现词频统计

 一、实验目的

1.准确理解Mapreduce的设计原理

2.熟练掌握WordCount程序代码编写

3.学会自己编写WordCount程序进行词频统计

 

二、实验过程

1.切换目录到/apps/hadoop/sbin下,启动hadoop。

cd /apps/hadoop/sbin./start-all.sh

 

2.在linux上,创建一个目录/data/mapreduce1。

mkdir -p /data/mapreduce1

 

3.切换到/data/mapreduce1目录下,使用wget命令从网址 http://192.168.1.150:60000/allfiles/mapreduce1/buyer_favorite1,下载文本文件buyer_favorite1。

cd /data/mapreduce1

wget  http://192.168.1.150:60000/allfiles/mapreduce1/buyer_favorite1

 

依然在/data/mapreduce1目录下,使用wget命令,从

http://192.168.1.150:60000/allfiles/mapreduce1/hadoop2lib.tar.gz,下载项目用到的依赖包。

wget  http://192.168.1.150:60000/allfiles/mapreduce1/hadoop2lib.tar.gz

 

hadoop2lib.tar.gz解压到当前目录下。

tar -xzvf hadoop2lib.tar.gz

 

4.将linux本地/data/mapreduce1/buyer_favorite1,上传到HDFS上的/mymapreduce1/in目录下。若HDFS目录不存在,需提前创建。

hadoop fs -mkdir -p /mymapreduce1/in

hadoop fs -put /data/mapreduce1/buyer_favorite1 /mymapreduce1/in

 

5.打开Eclipse,新建Java Project项目。

 

并将项目名设置为mapreduce1。

 

6.在项目名mapreduce1下,新建package包。

 

并将包命名为mapreduce 。

 

7.在创建的包mapreduce下,新建类。

 

并将类命名为WordCount。

 

8.添加项目所需依赖的jar包,右键单击项目名,新建一个目录hadoop2lib,用于存放项目所需的jar包。

 

 

linux上/data/mapreduce1目录下,hadoop2lib目录中的jar包,全部拷贝到eclipse中,mapreduce1项目的hadoop2lib目录下。这里jar包我首先想到的直接可视化的位置复制粘贴到项目中

 

 

选中hadoop2lib目录下所有的jar包,单击右键,选择Build Path=>Add to Build Path

 

9.编写Java代码,并描述其设计思路。

下图描述了该mapreduce的执行过程

 

大致思路是将hdfs上的文本作为输入,MapReduce通过InputFormat会将文本进行切片处理,并将每行的首字母相对于文本文件的首地址的偏移量作为输入键值对的key,文本内容作为输入键值对的value,经过在map函数处理,输出中间结果<word,1>的形式,并在reduce函数中完成对每个单词的词频统计。整个程序代码主要包括两部分:Mapper部分和Reducer部分。

Mapper代码

public static class doMapper extends Mapper<Object, Text, Text, IntWritable>{//第一个Object表示输入key的类型;第二个Text表示输入value的类型;第三个Text表示输出键的类型;第四个IntWritable表示输出值的类型public static final IntWritable one = new IntWritable(1);

        public static Text word = new Text();

        @Override

        protected void map(Object key, Text value, Context context)

                    throws IOException, InterruptedException

                       //抛出异常{

            StringTokenizer tokenizer = new StringTokenizer(value.toString(),"\t");

          //StringTokenizer是Java工具包中的一个类,用于将字符串进行拆分

 

                word.set(tokenizer.nextToken());

                 //返回当前位置到下一个分隔符之间的字符串

                context.write(word, one);

                 //将word存到容器中,记一个数

        }

map函数里有三个参数,前面两个Object key,Text value就是输入的key和value,第三个参数Context context是可以记录输入的key和value。例如context.write(word,one);此外context还会记录map运算的状态。map阶段采用Hadoop的默认的作业输入方式,把输入的value用StringTokenizer()方法截取出的买家id字段设置为key,设置value为1,然后直接输出<key,value>。

Reducer代码

public static class doReducer extends Reducer<Text, IntWritable, Text, IntWritable>{//参数同Map一样,依次表示是输入键类型,输入值类型,输出键类型,输出值类型private IntWritable result = new IntWritable();

        @Override

        protected void reduce(Text key, Iterable<IntWritable> values, Context context)

    throws IOException, InterruptedException {

    int sum = 0;

    for (IntWritable value : values) {

    sum += value.get();

    }

    //for循环遍历,将得到的values值累加

    result.set(sum);

    context.write(key, result);

    }

    }

map输出的<key,value>先要经过shuffle过程把相同key值的所有value聚集起来形成<key,values>后交给reduce端。reduce端接收到<key,values>之后,将输入的key直接复制给输出的key,用for循环遍历values并求和,求和结果就是key值代表的单词出现的总次,将其设置为value,直接输出<key,value>。

项目代码如下:

 

10.在WordCount类文件中,单击右键=>Run As=>Run on Hadoop选项,将MapReduce任务提交到Hadoop中。

 

 

11.待执行完毕后,打开终端或使用hadoop eclipse插件,查看hdfs上,程序输出的实验结果。

hadoop fs -ls /mymapreduce1/out

hadoop fs -cat /mymapreduce1/out/part-r-00000

 

 

 

三、实验心得

 

 

 

posted @ 2025-05-06 22:06  艾鑫4646  阅读(93)  评论(0)    收藏  举报