MapReduce当中自定义输出：多文件输出MultipleOutputs

自定义输出：多文件输出MultipleOutputs
马克-to-win @ 马克java社区：对于刚才的单独订单topN的问题，如果需要把单独的订单id的记录放在自己的一个文件中，并以订单id命名。怎么办？multipleOutputs可以帮我们解决这个问题。注意：和我们本章开始讲的多文件输出不一样的是，这里的多文件输出还可以跟程序的业务逻辑绑定在一起，比如文件的名字和订单有关系。

multipleOutputs的用法可以见底下的程序。
package com;
import java.io.File;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;
public class MultipleOutputsTestMark_to_win {

    public static class TokenizerMapper extends Mapper<Object, Text, Text, DoubleWritable> {
        String name;

        protected void setup(Context context) throws IOException, InterruptedException {
            // 从全局配置获取配置参数
            Configuration conf = context.getConfiguration();
            name = conf.get("name"); // 这样就拿到了
        }

        /*
o1abc,p2,250.0
o2kkk,p3,500.0
o2kkk,p4,100.0
o2kkk,p5,700.0
o3mmm,p1,150.0
o1abc,p1,200.0
         */
        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            System.out.println("name is " + name + "key is " + key.toString() + " value is " + value.toString());
            String line = value.toString();
            String[] fields = line.split(",");
            String orderId = fields[0];

更多内容请见原文，文章转载自：https://blog.csdn.net/qq_44594249/article/details/97616586

posted @ 2021-11-04 18:01 小龙虾1 阅读(82) 评论(0) 收藏举报

刷新页面返回顶部

小龙虾1

MapReduce当中自定义输出：多文件输出MultipleOutputs

公告