随笔分类 -  数据仓库

摘要:1. 引言 在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别、常驻地标签的用户,计算广告媒体上的覆盖UV。OLAP解决方案Kylin不支持复杂数据类型(array、struct、map),要求 "数据输入Schema必须是平铺" 的,但是平铺后丢失了用户的聚合标签信息,而没有办法判 阅读全文
posted @ 2016-10-09 20:40 Treant 阅读(5227) 评论(0) 推荐(0) 编辑
摘要:最近在用Hive做多维数据分析,总结一些常用HiveQL命令。 1. 建表 以纯文本数据建表: sql create table ( string comment 'ADX ID' , string comment 'ADX名称' , string comment '更新时间(天粒度)' ) com 阅读全文
posted @ 2016-05-20 18:43 Treant 阅读(1973) 评论(0) 推荐(0) 编辑
摘要:1. 引言 在 "前一篇" 中,解决了Hive表中复杂数据结构平铺化以导入Kylin的问题,但是平铺之后计算广告日志的曝光PV是翻倍的,因为一个用户对应于多个标签。所以,为了计算曝光PV,我们得另外创建视图。 分析需求: 每个DSP上的曝光PV,标签覆盖的曝光PV; 累计曝光PV,累计标签覆盖曝光P 阅读全文
posted @ 2016-05-05 18:03 Treant 阅读(6133) 评论(0) 推荐(0) 编辑
摘要:1. 引言 在分析广告日志时,会有这样的多维分析需求: 曝光、点击用户分别有多少? 标签能覆盖多少广告用户? 各个标签(标注)类别能覆盖的曝光、点击在各个DSP上所覆盖的用户数 …… 广告数据与标签数据join之后,存储orc file的schema如下: 用户可能会有多个标签,因此采用 数据类型来 阅读全文
posted @ 2016-04-28 17:26 Treant 阅读(5688) 评论(0) 推荐(1) 编辑
摘要:在cube build完成后,我的工作是写sql生成数据分析邮件报表。但是,问题是这种重复劳动效率低、易出错、浪费时间。还好Kylin提供 "RESTful API" ,可以将这种数据分析需求转换成HTTP请求。 1. RESTful API Kylin的认证是basic authenticatio 阅读全文
posted @ 2016-04-22 10:29 Treant 阅读(3321) 评论(5) 推荐(0) 编辑
摘要:有一个数据多维分析的任务: 日志的周UV; APP的收集量及标注量,TOP 20 APP(周UV),TOP 20 APP标注分类(周UV); 手机机型的收集量及标注量,TOP 20 机型(周UV),TOP 20 手机厂商(周UV); 初始的解决方案:Spark读取数据日志,然后根据分析需求逐一进行m 阅读全文
posted @ 2016-04-12 12:57 Treant 阅读(3314) 评论(0) 推荐(1) 编辑