随笔分类 -  大数据

摘要:1. 简介 coordinator是workflow的定时提交器,基于时间条件与数据生成触发(based on time and data triggers)。简单点说,coordinator按所定义的时间周期进行轮询,若数据生成条件满足,则触发workflow任务;否则,则等待数据生成或跳过(调度 阅读全文
posted @ 2016-06-13 17:23 Treant 阅读(7148) 评论(0) 推荐(5) 编辑
摘要:1. Oozie简介 Yahoo开发工作流引擎 "Oozie" (驭象者),用于管理Hadoop任务(支持MapReduce、Spark、Pig、Hive),把这些任务以DAG(有向无环图)方式串接起来。Oozie任务流包括:coordinator、workflow;workflow描述任务执行顺序 阅读全文
posted @ 2016-05-26 16:20 Treant 阅读(13762) 评论(2) 推荐(3) 编辑
摘要:在 "前一篇" 中介绍了使用API做Distinct Count,但是精确计算的API都较慢,那有没有能更快的优化解决方案呢? 1. Bitmap介绍 《编程珠玑》上是这样介绍bitmap的: Bitmap是一个十分有用的数据结构。所谓的Bitmap就是用一个bit位来标记某个元素对应的Value, 阅读全文
posted @ 2016-04-06 15:06 Treant 阅读(2537) 评论(0) 推荐(1) 编辑
摘要:在数据库中,常常会有Distinct Count的操作,比如,查看每一选修课程的人数: Hive 在大数据场景下,报表很重要一项是UV(Unique Visitor)统计,即某时间段内用户人数。例如,查看一周内app的用户分布情况,Hive中写HiveQL实现: Pig 与之类似,Pig的写法: " 阅读全文
posted @ 2016-03-29 13:51 Treant 阅读(7438) 评论(0) 推荐(1) 编辑
摘要:1. 数据模型 Schema Pig Latin表达式操作的是relation,FILTER、FOREACH、GROUP、SPLIT等关系操作符所操作的relation就是bag,bag为tuple的集合,tuple为有序的field列表集合,而field表示数据块(A field is a pie 阅读全文
posted @ 2016-01-20 14:20 Treant 阅读(1982) 评论(0) 推荐(1) 编辑
摘要:1. 问题描述 收集日志avro数据中有两个Map字段 、`appUse 支付宝|京东|淘宝|天猫`的用户名单;MapReduce 解决办法如下: 但是,如果要匹配游戏类的app、金融类的app类呢?如果匹配关键词发生了变化呢?显然,我们应该将匹配关键词开放成API,可以自由地匹配正则表达式。这时, 阅读全文
posted @ 2016-01-14 10:46 Treant 阅读(1377) 评论(0) 推荐(1) 编辑
摘要:最近特别喜欢用Pig,拥有能满足大部分需求的内置函数(built in functions),支持自定义函数(user defined functions, UDF ),能load 纯文本、avro等格式数据;illustrate看pig执行步骤的结果,describe看alias的schema;以 阅读全文
posted @ 2016-01-12 20:21 Treant 阅读(2936) 评论(3) 推荐(0) 编辑