01 2016 档案

摘要:1. 数据模型 Schema Pig Latin表达式操作的是relation,FILTER、FOREACH、GROUP、SPLIT等关系操作符所操作的relation就是bag,bag为tuple的集合,tuple为有序的field列表集合,而field表示数据块(A field is a pie 阅读全文
posted @ 2016-01-20 14:20 Treant 阅读(1987) 评论(0) 推荐(1) 编辑
摘要:1. 问题描述 收集日志avro数据中有两个Map字段 、`appUse 支付宝|京东|淘宝|天猫`的用户名单;MapReduce 解决办法如下: 但是,如果要匹配游戏类的app、金融类的app类呢?如果匹配关键词发生了变化呢?显然,我们应该将匹配关键词开放成API,可以自由地匹配正则表达式。这时, 阅读全文
posted @ 2016-01-14 10:46 Treant 阅读(1379) 评论(0) 推荐(1) 编辑
摘要:最近特别喜欢用Pig,拥有能满足大部分需求的内置函数(built in functions),支持自定义函数(user defined functions, UDF ),能load 纯文本、avro等格式数据;illustrate看pig执行步骤的结果,describe看alias的schema;以 阅读全文
posted @ 2016-01-12 20:21 Treant 阅读(2943) 评论(3) 推荐(0) 编辑