Pig parallel reduce并行执行数

    parallel语句可以附加到Pig Latin中任一个关系操作符后面,然后它会控制reduce阶段的并行,因此只有对与可以触发reduce过程的操作符才有意义。

    可以触发reduce过程的操作符有:group、order、distinct、join、cogroup、cross
 
设置parallel的方法:
 
1)在操作符后面
data = load 'data';
grpd = group data by $0 parallel 10;
sorted = order data by $0 parallel 2;

   

2)set default_parallel n
 
parallel的数值设置多少是合理的??
 
parallel只能控制reduce过程的并行,对与map过程的控制,可以通过用户自定义的加载函数实现,重写自己的InputFormat。
posted @ 2015-06-07 22:38  lishouguang  阅读(748)  评论(0)    收藏  举报