随笔分类 -  Pig

【原创】Hadoop pig进阶语法
摘要:本文来自与作者阅读Programming Pig所做的笔记,转载请注明出处http://www.cnblogs.com/siwei1988/archive/2012/08/06/2624912.html。Pig Latin是一种数据流语言,变量的命名规则同java中变量的命名规则,变量名可以复用(不建议这样做,这种情况下相当与新建一个变量,同时删除原来的变量)A = load 'NYSE_dividends' (exchange, symbol, date, dividends);A = filter A by dividends > 0;A = foreach A ge 阅读全文
posted @ 2012-08-06 16:49 siwei1988 阅读(30975) 评论(0) 推荐(0)
【转载】各种sql语句在hadoop pig中的实现
摘要:本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1317084 欢迎加入Hadoop超级群:180941958 我这里以Mysql 5.1.x为例,Pig的版本是0.8 同时我将数据放在了两个文件,存放在/tmp/data_file_1和/tmp/data_file_2中.文件内容如下: tmp_file_1:Txt代码zhangsan231lisi241wangmazi301meinv180dama550 tmp_file_2:Txt代码1a23bb50ccc30dddd66eeeee 1.从文件导入数据 1)Mysql (... 阅读全文
posted @ 2012-07-23 11:46 siwei1988 阅读(1580) 评论(0) 推荐(0)
【原创】Pig 0.10.0 piggybank 如何编译
摘要:在Pig 0.10.0中 piggybank源程序已经包含在contrib文件夹中,但是没有编译成jar包形式,需要自己用ant编译,官方的参考文档https://cwiki.apache.org/confluence/display/PIG/PiggyBank,但似乎只适合以前的版本下面是我的编译步骤,仅供参考,过程中有很多自己不懂的地方,希望起到一个抛砖引玉的作用:第一步:进入build.xml所在文件夹[root@master java]# cd /home/swxing/pig-0.10.0/contrib/[root@master contrib]# lsCHANGES.txt p. 阅读全文
posted @ 2012-07-19 17:11 siwei1988 阅读(1831) 评论(0) 推荐(0)
【原创】Pig资料集锦
摘要:1. Hadoop Pig 0.10.0内置系统函数 http://pig.apache.org/docs/r0.10.0/func.htmlIntroductionDynamic InvokersEval FunctionsAVGCONCATCOUNTCOUNT_STARDIFFIsEmptyMAXMINSIZESUMTOKENIZELoad/Store FunctionsHandling CompressionBinStorageJsonLoader, JsonStoragePigDumpPigStorageTextLoaderMath FunctionsABSACOSASINATAN.. 阅读全文
posted @ 2012-07-19 14:28 siwei1988 阅读(458) 评论(0) 推荐(0)
【未解决】一个pig错误
摘要:org.apache.pig.backend.executionengine.ExecException: ERROR 2078: Caught error from UDF: myudfs.UPPER [Caught exception processing input row ] at org.apache.pig.backend.hadoop.executionengine.physicalLayer.expressionOperators.POUserFunc.getNext(POUserFunc.java:242) at org.apache.pig.backend.ha... 阅读全文
posted @ 2012-07-13 17:24 siwei1988 阅读(772) 评论(0) 推荐(0)
【原创】Pig常见错误集锦
摘要:1. Could not resolve myudfs.UPPER using imports: [, org.apache.pig.builtin., org.apache.pig.impl.builtin.] 错误原因:所调用的自定义函数没有注册; 解决方案:使用Register注册对应的jar包。 ERROR 1070: Could not resolve count using imports: [, org.apache.pig.builtin., org.apache.pig.impl.builtin.] 错误原因:所使用的count命令不存在; 解... 阅读全文
posted @ 2012-07-13 16:24 siwei1988 阅读(6459) 评论(1) 推荐(0)