2020 年 4月 8 日随笔档案 - boiledwater

2020年4月8日

摘要：数据查询 Druid的聚合查询主要有三种形式: Timeseries TopN GroupBy 一般而言，OLAP系统最核心的能力是GroupBy查询，Druid也不例外。但是GroupBy查询资源消耗较多，TopN和Timeseries作为GroupBy的有益补充，能够改善查询的性能。我们建议：阅读全文

posted @ 2020-04-08 22:37 boiledwater 阅读(956) 评论(0) 推荐(0)

OLAP之Druid之实时数据摄入

摘要：实时数据摄入我们采用Kafka Indexing Service作为实时摄入数据的方案。准备工作将数据实时灌入某个Kafka topic中与批量导入数据类似：考虑清楚数据中哪一列可以作为时间列、哪些列可以作为维度列、哪些列可以作为指标列（尤其是指标的聚合函数，包括count、sum、max、阅读全文

posted @ 2020-04-08 22:33 boiledwater 阅读(867) 评论(0) 推荐(1)

OLAP之Druid之批量数据摄入

摘要：批量数据摄入准备工作确保druid帐号可以访问到位于HDFS之上的原始数据考虑清楚数据中哪一列可以作为时间列、哪些列可以作为维度列、哪些列可以作为指标列（尤其是指标的聚合函数，包括count、sum、max、min等，如果涉及UV、留存的计算，则需要使用HyperUnique或者Theta s 阅读全文

posted @ 2020-04-08 22:30 boiledwater 阅读(857) 评论(0) 推荐(0)

OLAP之Druid之概述

摘要： Druid是分布式的OLAP平台，支持实时和批量两种数据灌入模式，在亿级数据规模上能够提供秒级的查询响应。如下图所示，用户可以对指定维度的条件进行过滤（包括等于、模糊匹配等，这部分内容后面会详细解释），也可以按照指定的维度进行聚合。基本概念在我们讨论之前,先让我们看看一个数据集的例子 (来源于线阅读全文

posted @ 2020-04-08 22:20 boiledwater 阅读(642) 评论(0) 推荐(0)

公告