04 2016 档案

摘要:1. 引言 在分析广告日志时,会有这样的多维分析需求: 曝光、点击用户分别有多少? 标签能覆盖多少广告用户? 各个标签(标注)类别能覆盖的曝光、点击在各个DSP上所覆盖的用户数 …… 广告数据与标签数据join之后,存储orc file的schema如下: 用户可能会有多个标签,因此采用 数据类型来 阅读全文
posted @ 2016-04-28 17:26 Treant 阅读(5687) 评论(0) 推荐(1) 编辑
摘要:在cube build完成后,我的工作是写sql生成数据分析邮件报表。但是,问题是这种重复劳动效率低、易出错、浪费时间。还好Kylin提供 "RESTful API" ,可以将这种数据分析需求转换成HTTP请求。 1. RESTful API Kylin的认证是basic authenticatio 阅读全文
posted @ 2016-04-22 10:29 Treant 阅读(3321) 评论(5) 推荐(0) 编辑
摘要:前一段时间,用Django搭建一个报表分析的网站;借此正好整理一下笔记。 1. 安装 python有包管理工具pip,直接 ,输入 安装完成后, ,若能打印出Django的版本信息,即说明安装成功。一般地,Django安装在 目录。 2. Django介绍 项目 Django的架构是MTV(Mode 阅读全文
posted @ 2016-04-20 19:32 Treant 阅读(2014) 评论(0) 推荐(0) 编辑
摘要:有一个数据多维分析的任务: 日志的周UV; APP的收集量及标注量,TOP 20 APP(周UV),TOP 20 APP标注分类(周UV); 手机机型的收集量及标注量,TOP 20 机型(周UV),TOP 20 手机厂商(周UV); 初始的解决方案:Spark读取数据日志,然后根据分析需求逐一进行m 阅读全文
posted @ 2016-04-12 12:57 Treant 阅读(3314) 评论(0) 推荐(1) 编辑
摘要:在 "前一篇" 中介绍了使用API做Distinct Count,但是精确计算的API都较慢,那有没有能更快的优化解决方案呢? 1. Bitmap介绍 《编程珠玑》上是这样介绍bitmap的: Bitmap是一个十分有用的数据结构。所谓的Bitmap就是用一个bit位来标记某个元素对应的Value, 阅读全文
posted @ 2016-04-06 15:06 Treant 阅读(2545) 评论(0) 推荐(1) 编辑