• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
人生之路,职业之路
读书使人充实,交谈使人机敏,写记使人精确;
“动因+兴趣”——决心-持之以恒-见效
博客园    首页    新随笔    联系   管理    订阅  订阅

文章分类 -  hadoop-pig

hadoop pig UDF库

摘要:1.PiggyBank – Api文档(0.12.0版本)http://pig.apache.org/docs/r0.12.0/api/piggyBank 源代码https://cwiki.apache.org/confluence/display/PIG/PiggyBank2.Datafu - LinkedIn的用户自定义函数(UDF)集合包含一系列离线计算函数:统计计算函数 •分位数/中位数, 方差 •包(Bag)运算 •包的分割合并, 添加序号 •链接分析(Link Analysis) •PageRank. •地理函数 •计算两个经纬度的距离Datafu官方页面: http://data 阅读全文
posted @ 2013-12-23 14:13 FreeBird 阅读(453) 评论(0) 推荐(0)
pig脚本中awk处理文本问题汇总(慢慢总结)

摘要:1. 用awk的match匹配URL,注意一下如果匹配带/开头或者/结尾的字符串时,需要处理一下,变成[/],对于分号也需要处理,采用ASCII码\\x3Bj = foreach i generate time,city,user,referer;k = stream j through `awk '{ refer=$4 tt="" if(match(refer,"http://sou.zhaopin.com")) tt="职位搜索频道页" else if(match(refer,"http://sou.zhaopi 阅读全文
posted @ 2013-12-06 11:39 FreeBird 阅读(382) 评论(0) 推荐(0)
pig里处理apache日志时间问题

摘要:日志中的时间为 17/Jul/2013:22:00:06 +0800]a = load '/user/grid/full/201311{23,24,25}/*' using logloader() AS (remoteAddr:chararray, remoteLogname, user, time:chararray, method, uri:chararray, proto, status, bytes, referer:chararray, userAgent);b= foreacha generate SUBSTRING(time,0,20) as d1:chararr 阅读全文
posted @ 2013-11-27 18:08 FreeBird 阅读(216) 评论(0) 推荐(0)
pig脚本中用awk匹配两列内容

摘要:今天写pig脚本时,范了个低级错误,在awk中使用了sub作为变量名,结果执行pig脚本总报错2.txt文件有两列内容256;005;006;578,005005;006,007,259007;598,007功能要求:从第一列中匹配第二列的内容,匹配到的输出--*********************************************************************a = load '2.txt' using PigStorage(',') as (c1:chararray,c2:chararray);b = stream a t 阅读全文
posted @ 2013-11-27 16:48 FreeBird 阅读(2496) 评论(0) 推荐(0)

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3