摘要:
lmt = limit data 10;只获取指定条数的数据,不能保证每次得到的结果一致,先执行order再limit可以保证一致。输入数据全部载入。会触发reduce阶段a = load 'a.txt';b = group a all;c = foreach b generate COUNT(a)... 阅读全文
posted @ 2015-06-07 22:36
lishouguang
阅读(586)
评论(0)
推荐(0)
摘要:
jnd = join a by f1, b by f2;join操作默认的是内连接,只有两边都匹配才会保留需要用null补位的那边需要知道它的模式:如果是左外连接,需要知道右边的数据集的模式,不匹配的字段用null补位如果是右外连接,需要知道左边的数据集的模式,不匹配的字段用null补位如果是全外连... 阅读全文
posted @ 2015-06-07 22:35
lishouguang
阅读(893)
评论(0)
推荐(0)
摘要:
dst = distinct data;DISTINCT只能对整个记录(整行)去重,不能在字段级别去重。触发reduce阶段data = load 'data';distinct data; 阅读全文
posted @ 2015-06-07 22:34
lishouguang
阅读(598)
评论(0)
推荐(0)
摘要:
group语句可以把具有相同键值的数据聚合在一起,与SQL中的group操作有着本质的区别,在SQL中group by字句创建的组必须直接注入一个或多个聚合函数。在Pig Latin中group和聚合函数之间没有直接的关系。 group关键字正如它字面所表达的:将包含了特定的键所对应的值的所有记录... 阅读全文
posted @ 2015-06-07 22:33
lishouguang
阅读(1587)
评论(0)
推荐(0)
摘要:
sorted = order data by $0;数值类型按照数值大小比较chararray类型按照字符的字典顺序比较bytearray按照字节的字典顺序比较复杂类型(map、tuple、bag)不能比较null是最小的触发reduce阶段sorted = order data by $0;sor... 阅读全文
posted @ 2015-06-07 22:29
lishouguang
阅读(370)
评论(0)
推荐(0)
摘要:
store:将数据存储到HDFS等文件系统里将数据保存到/data目录store data into '/data'; 以逗号为分隔符store data into '/data' using PigStorage(','); 阅读全文
posted @ 2015-06-07 22:28
lishouguang
阅读(534)
评论(0)
推荐(0)
摘要:
filter:过滤数据,只有符合特定条件的数据才会被保留下来,然后进入下一个数据流。1)等值比较filter data by $0 == 1filter data by $0 != 12)字符串 正则匹配 JAVA的正则表达式字符串以CM开头filter data by $0 matches 'CM... 阅读全文
posted @ 2015-06-07 22:27
lishouguang
阅读(1392)
评论(0)
推荐(0)
摘要:
foreach:一行一行的遍历数据,处理一行的数据,然后返回一个tuple。users = load '/users.data';1)别名引用f = foreach users generate name, age; 2)位置引用f = foreach users generate $0, $1;... 阅读全文
posted @ 2015-06-07 22:25
lishouguang
阅读(1213)
评论(0)
推荐(0)
摘要:
users = load '/users.data' using PigStorage() as (name:chararray, age:int, address:chararray);load 'xx': 1)xx可以是文件,也可以是文件夹。如果是文件夹,则文件夹下的所有文件(包括子文件夹)都... 阅读全文
posted @ 2015-06-07 22:22
lishouguang
阅读(580)
评论(1)
推荐(0)
摘要:
总体来说Pig是“强类型”的,但Pig又允许用户不指定输入数据的类型,而可以自己根据用户的使用方式进行推测。称Pig是“轻类型”的更合适,它确实对类型有严格的要求,但是如果没有明确定义类型也是可以处理的。 阅读全文
posted @ 2015-06-07 22:21
lishouguang
阅读(178)
评论(0)
推荐(0)