文章分类 - hadoop-pig
hadoop pig UDF库
摘要:1.PiggyBank – Api文档(0.12.0版本)http://pig.apache.org/docs/r0.12.0/api/piggyBank 源代码https://cwiki.apache.org/confluence/display/PIG/PiggyBank2.Datafu - LinkedIn的用户自定义函数(UDF)集合包含一系列离线计算函数:统计计算函数 •分位数/中位数, 方差 •包(Bag)运算 •包的分割合并, 添加序号 •链接分析(Link Analysis) •PageRank. •地理函数 •计算两个经纬度的距离Datafu官方页面: http://data
阅读全文
pig脚本中awk处理文本问题汇总(慢慢总结)
摘要:1. 用awk的match匹配URL,注意一下如果匹配带/开头或者/结尾的字符串时,需要处理一下,变成[/],对于分号也需要处理,采用ASCII码\\x3Bj = foreach i generate time,city,user,referer;k = stream j through `awk '{ refer=$4 tt="" if(match(refer,"http://sou.zhaopin.com")) tt="职位搜索频道页" else if(match(refer,"http://sou.zhaopi
阅读全文
pig里处理apache日志时间问题
摘要:日志中的时间为 17/Jul/2013:22:00:06 +0800]a = load '/user/grid/full/201311{23,24,25}/*' using logloader() AS (remoteAddr:chararray, remoteLogname, user, time:chararray, method, uri:chararray, proto, status, bytes, referer:chararray, userAgent);b= foreacha generate SUBSTRING(time,0,20) as d1:chararr
阅读全文
pig脚本中用awk匹配两列内容
摘要:今天写pig脚本时,范了个低级错误,在awk中使用了sub作为变量名,结果执行pig脚本总报错2.txt文件有两列内容256;005;006;578,005005;006,007,259007;598,007功能要求:从第一列中匹配第二列的内容,匹配到的输出--*********************************************************************a = load '2.txt' using PigStorage(',') as (c1:chararray,c2:chararray);b = stream a t
阅读全文
浙公网安备 33010602011771号