Pig 在 shell script中被调用,批量载入处理文件

首先,我想达到的目的是批量的处理一个目录下的的很多文档,这些文档保存了我要处理的数据,由于pig是初学。。所以不知到该怎么批量的load,没有写过

自己的UDF,仅仅能一个一个文件的load,然后处理。

可是这个肯定不是我希望的处理方式,于是联想到是不是能够将pig脚本插入到shell中然后循环运行。

最后尝试成功了,当然我相信pig的udf中能够自定义这样的load的方式,可是假设出于高速实现的目的能够

先使用这样的方式。

以下是shell的代码部分:

mkdir result_0925_D2
for eachfile in `ls -B  | grep 00.*`
do
        echo $eachfile
        input_=$eachfile
        output_=./result_0925_D2/$input_
        echo $output_
        file="$input_"
        file_out="$output_"
        pig -param input=$file  -param output=$file_out -x local new_getResult.pig
done

当中最重要的是就是在运行pig的时候,给输入输出文件循环的代入。

posted on 2017-07-04 10:39  slgkaifa  阅读(223)  评论(0编辑  收藏  举报

导航