MapReduce框架原理之数据清洗（ETL）

MapReduce 框架原理之数据清洗（ETL）

“ETL，是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程。ETL 一词较常用在数据仓库，但其对象并不限于数据仓库

在运行核心业务 MapReduce 程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行 Mapper 程序，不需要运行 Reduce 程序。

需求

去除日志中字段个数小于等于 11 的日志。
- 输入数据
  
  194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)" 183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] "-" 400 0 "-" "-" 163.177.71.12 - - [18/Sep/2013:06:49:33 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0" 163.177.71.12 - - [18/Sep/2013:06:49:36 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0" 101.226.68.137 - - [18/Sep/2013:06:49:42 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
  
  ......
- 期望输出数据
  
  每行字段长度都大于 11

需求分析

编写 webLogMapper 类

package com.atguigu.mapreduce.weblog;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WebLogMapper extends Mapper<LongWritable, Text, Text, NullWritable>{

 @Override
 protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

  // 1 获取1行数据
  String line = value.toString();

  // 2 解析日志
  boolean result = parseLog(line,context);

  // 3 日志不合法退出
  if (!result) {
   return;
  }

  // 4 日志合法就直接写出
  context.write(value, NullWritable.get());
 }

 // 2 封装解析日志的方法
 private boolean parseLog(String line, Context context) {

  // 1 截取
  String[] fields = line.split(" ");

  // 2 日志长度大于11的为合法
  if (fields.length > 11) {
   return true;
  }else {
   return false;
  }
 }
}

编写 WebLogDriver 类

package com.atguigu.mapreduce.weblog;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WebLogDriver {
 public static void main(String[] args) throws Exception {

// 输入输出路径需要根据自己电脑上实际的输入输出路径设置
        args = new String[] { "E:/input", "D:/output666" };

  // 1 获取job信息
  Configuration conf = new Configuration();
  Job job = Job.getInstance(conf);

  // 2 加载jar包
  job.setJarByClass(WebLogDriver.class);

  // 3 关联map
  job.setMapperClass(WebLogMapper.class);

  // 4 设置最终输出类型
  job.setOutputKeyClass(Text.class);
  job.setOutputValueClass(NullWritable.class);

  // 设置reducetask个数为0
  job.setNumReduceTasks(0);

  // 5 设置输入和输出路径
  FileInputFormat.setInputPaths(job, new Path(args[0]));
  FileOutputFormat.setOutputPath(job, new Path(args[1]));

  // 6 提交
         boolean b = job.waitForCompletion(true);
         System.exit(b ? 0 : 1);
 }
}

posted @ 2021-11-09 17:11 逆十字阅读(272) 评论(0) 收藏举报

刷新页面返回顶部

逆十字

MapReduce框架原理之数据清洗（ETL）

MapReduce 框架原理之数据清洗（ETL）

公告