yanqi_vip - 博客园

|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&OLAP_Druid.V11|——|Druid.v11|架构|索引压缩机制|

摘要：一、索引及压缩机制 ### Druid的查询时延低性能好的主要是因为采用了五个技术点： ~~~ 数据预聚合 ~~~ 列式存储、数据压缩 ~~~ Bitmap 索引 ~~~ mmap（内存文件映射方式） ~~~ 查询结果的中间缓存二、数据聚合 ### 数据预聚合 ~~~ Druid通过一个roll- 阅读全文

posted @ 2022-04-14 15:22 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00012|——————————|BigDataEnd|——|Hadoop&OLAP_Druid.V12|——|Druid.v12|实战|Druid实战案例.V1|

摘要：一、需求分析 ### 场景分析 ~~~ 数据量大，需要在这些数据中根据业务需要灵活做查询 ~~~ 实时性要求高 ~~~ 数据实时的推过来，要在秒级对数据进行分析并查询出结果二、数据分析 ### 数据描述 ~~~ # 数据json串 {"ts":1607499629841,"orderId":"10 阅读全文

posted @ 2022-04-14 15:22 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00010|——————————|BigDataEnd|——|Hadoop&OLAP_Druid.V10|——|Druid.v10|架构|索引服务|

摘要：一、索引服务 ### 索引服务 ~~~ 索引服务：数据导入并创建 segments 数据文件的服务 ~~~ 索引服务是一个高可用的分布式服务，采用主从结构作为架构模式，索引服务由三大组件构成 ~~~ overlord 作为主节点 ~~~ middlemanager是从节点 ~~~ peon用于运行一阅读全文

posted @ 2022-04-14 15:21 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00008|——————————|BigDataEnd|——|Hadoop&OLAP_Druid.V08|——|Druid.v08|架构|基础架构原理|

摘要：一、基础架构二、Druid 总体包含以下 6 类节点： ### Coordinator node： ~~~ 主要负责历史节点的数据负载均衡，以及通过规则管理数据的生命周期。 ~~~ 协调节点告诉历史节点加载新数据、卸载过期数据、复制数据、和为了负载均衡移动数据。 ~~~ Coordinator 阅读全文

posted @ 2022-04-14 15:21 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00009|——————————|BigDataEnd|——|Hadoop&OLAP_Druid.V09|——|Druid.v09|架构|数据存储|

摘要：一、数据存储 ### 数据存储 ~~~ Druid中的数据存储在被称为DataSource中，DataSource类似RDBMS中的 Table ~~~ 每个DataSource按照时间划分， ~~~ 每个时间范围称为一个Chunk（比如按天分区，则一个chunk为一天） ~~~ 在Chunk中数据阅读全文

posted @ 2022-04-14 15:21 yanqi_vip 阅读(43) 评论(0) 推荐(0)

|NO.Z.00007|——————————|BigDataEnd|——|Hadoop&OLAP_Druid.V07|——|Druid.v07|入门|从HDFS加载数据.V1|

摘要：一、从HDFS中加载数据 ### 在hdfs中创建数据目录 ~~~ # 在kafka中准备配置文件 [root@hadoop02 ~]# hdfs dfs -cat /data/druidlog.dat {"ts":"2021-10-01T00:01:35Z","srcip":"6.6.6.6", 阅读全文

posted @ 2022-04-14 14:58 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00006|——————————|BigDataEnd|——|Hadoop&OLAP_Druid.V06|——|Druid.v06|入门|从kafka加载流式数据.V2|

摘要：一、提取参数说明 ### 数据摄取规范 ~~~ dataSchema。指定传入数据的Schema ~~~ ioConfig。指定数据的来源和去向 ~~~ tuningConfig。指定各种摄取参数 { "type": "kafka", "spec": { "ioConfig": Object { . 阅读全文

posted @ 2022-04-14 14:56 yanqi_vip 阅读(41) 评论(0) 推荐(0)

|NO.Z.00005|——————————|BigDataEnd|——|Hadoop&OLAP_Druid.V05|——|Druid.v05|入门|从kafka加载流式数据.V1|

摘要：一、从Kafka中加载流式数据 ### 从Kafka中加载流式数据 ~~~ 数据及需求说明：Druid典型应用架构：不在Druid中处理复杂的数据转换清洗工作 ### 假设有以下网络流量数据： ~~~ ts：时间戳 ~~~ srcip：发送端 IP 地址 ~~~ srcport：发送端端口号 ~~~ 阅读全文

posted @ 2022-04-14 14:55 yanqi_vip 阅读(82) 评论(0) 推荐(0)

|NO.Z.00004|——————————|^^ 部署 ^^|——|Hadoop&OLAP_Druid.V04|——|Druid.v04|部署|集群部署|

摘要：一、集群部署 ### 环境资源说明 ~~~ 虚拟机每个节点2core、3G ~~~ DeepStorage：Hadoop 2.9.2 ### 部署规划：集群部署采用的分配如下 ~~~ 主节点部署 Coordinator 和 Overlord进程 ~~~ 数据节点运行 Historical 和 Mid 阅读全文

posted @ 2022-04-14 14:51 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00002|——————————|BigDataEnd|——|Hadoop&OLAP_Druid.V02|——|Druid.v02|简介架构|体系机构|

摘要：一、体系架构 ### Druid进程和服务 ~~~ # Coordinator ~~~ 进程管理群集上的数据可用性。 ~~~ 从metastore中读取Segment的元数据，并决定哪些Segments需要被加载到集群中。 ~~~ 使用ZooKeeper查看已经存在的历史节点，了解集群各个节点负载情阅读全文

posted @ 2022-04-14 14:50 yanqi_vip 阅读(16) 评论(0) 推荐(0)

|NO.Z.00003|——————————|^^ 部署 ^^|——|Hadoop&OLAP_Druid.V03|——|Druid.v03|部署|单服务器部署|

摘要：一、Druid 部署 ### 下载Druid版本包并解压版本包 ~~~ # 下载 Druid 安装包、并解压缩： ~~~ # Druid官网：https://druid.apache.org/ [root@hadoop01 ~]# cd /opt/yanqi/software/ ~~~ # 官网源下阅读全文

posted @ 2022-04-14 14:50 yanqi_vip 阅读(9) 评论(0) 推荐(0)

|NO.Z.00001|——————————|BigDataEnd|——|Hadoop&OLAP_Druid.V01|——|Druid.v01|简介架构概述|

摘要：一、Druid概述 ### 什么是Druid ~~~ # 数据分析的基础架构可以分为以下几类： ~~~ 使用Hadoop/Spark进行分析 ~~~ 将Hadoop/Spark的结果导入 RDBMS 中提供数据分析 ~~~ 将结果保存到容量更大的 NoSQL 数据库中，解决数据分析的存储瓶颈，例如：阅读全文

posted @ 2022-04-14 14:49 yanqi_vip 阅读(15) 评论(0) 推荐(0)

|NO.Z.00000|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-14 14:48 yanqi_vip 阅读(11) 评论(0) 推荐(0)

|NO.Z.00028|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-14 14:47 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-14 14:47 yanqi_vip 阅读(9) 评论(0) 推荐(0)

|NO.Z.00027|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V27|——|Kylin.v27|Kylin构建Cube|实时OLAP.V3|

摘要：一、定义数据源 ### 定义数据源 ~~~ # 1、创建数据源 ~~~ # 2、填写kafka集群信息 ~~~ # 3、通过kylin加载的json字段：创建流表维表格式 ~~~ # 4、查看加载的流式实时数据源二、创建Model ### 设计Model ~~~ # 当前，流cube不支持与loo 阅读全文

posted @ 2022-04-14 14:46 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00024|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V24|——|Kylin.v24|Kylin构建Cube|流式构建.V2|

摘要：一、定义Model ### 定义Model ~~~ 1、Model Designer ~~~ 2、Data Model：因为把维表都包含了，不涉及到维表，只要选择数据源即可 ~~~ 3、Dimensions ~~~ 4、Measures ~~~ 5、settings——>Save 二、定义cube 阅读全文

posted @ 2022-04-14 14:45 yanqi_vip 阅读(42) 评论(0) 推荐(0)

|NO.Z.00025|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V25|——|Kylin.v25|Kylin构建Cube|实时OLAP.V1|

摘要：一、实时OLAP ### 实时OLAP ~~~ Kylin V3.0.0发布了全新的实时OLAP功能，借助新添加的流接收器群集的功能， ~~~ Kylin可以以亚秒级的延迟查询流数据。 ~~~ 如果希望以微批量方式（大约10分钟的延迟）接收kafka事件，则可以考虑使用流式构建。 ~~~ 这两个功能阅读全文

posted @ 2022-04-14 14:45 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00026|——————————|^^ 部署 ^^|——|Hadoop&OLAP_Kylin.V26|——|Kylin.v26|Kylin构建Cube|实时OLAP.V2|

摘要：一、OLAP环境准备 ### OLAP环境准备 ~~~ # 进入服务部署目录 [root@hadoop02 ~]# cd /opt/yanqi/servers/ ~~~ # coordinator [root@hadoop02 servers]# cp -r kylin-3.1.1/ kylin-3 阅读全文

posted @ 2022-04-14 14:45 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00023|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V23|——|Kylin.v23|Kylin构建Cube|流式构建.V1|

摘要：一、流式构建 ### 流式构建 ~~~ 实时数据更新是一种普遍的需求，快速分析变化趋势才能做出正确的决策。 ~~~ Kylin V1.6 发布了可扩展的 streaming cubing 功能， ~~~ 它利用 Hadoop 消费 Kafka 数据的方式构建 cube。 ~~~ 这种方式构建的Cub 阅读全文

posted @ 2022-04-14 14:44 yanqi_vip 阅读(35) 评论(0) 推荐(0)

|NO.Z.00021|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V21|——|Kylin.v21|Cube优化|聚合组|强制/层级/联合维度|

摘要：一、聚合组 ### 聚合组 ~~~ 随着维度数目的增加，Cuboid 的数量会爆炸式地增长。 ~~~ 为了缓解 Cube 的构建压力，Apache Kylin 引入了一系列的高级设置， ~~~ 帮助用户筛选出真正需要的 Cuboid（本质是要减少Cube构建过程中的预计算）。 ### 这些高级设置包阅读全文

posted @ 2022-04-14 14:43 yanqi_vip 阅读(64) 评论(0) 推荐(0)

|NO.Z.00022|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V22|——|Kylin.v22|Cube优化|Rowkeys|编码/顺序/分片|

摘要：一、Rowkeys ### Rowkeys ~~~ 简单的说Cuboid的维度会映射为HBase的Rowkey，Cuboid的指标会映射为HBase的Value。二、Rowkeys示例说明 ### Rowkeys示例说明 ~~~ # 如上图原始表所示： ~~~ Hive表有两个维度列year和ci 阅读全文

posted @ 2022-04-14 14:43 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00020|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V20|——|Kylin.v20|Cube优化|使用衍生维度.V3|

摘要：一、案例二：定义衍生维度及对比： ### 定义cube ~~~ 构建与前面Cube4类似的Cube7，仅在维度定义有区别，以下是二者的对比：二、定义cube ### 定义cube ~~~ # 1、定义一个cube：基于yanqi_sales_model4定义cube7 ~~~ # 2、定义维度 ~ 阅读全文

posted @ 2022-04-14 14:42 yanqi_vip 阅读(48) 评论(0) 推荐(0)

|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V19|——|Kylin.v19|Cube优化|使用衍生维度.V2|

摘要：一、加载数据源 ### 加载数据源 ### 查看创建日期维表的cube 二、定义model：案例一 ### 定义model：案例一 ~~~ # 1、新建一个model1、新建一个model ~~~ # 2、定义事实表 ~~~ # 3、定义维表 ~~~ # 4、定义维度：全部加进去 ~~~ # 5、定阅读全文

posted @ 2022-04-14 14:42 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V18|——|Kylin.v18|Cube优化|使用衍生维度.V1|

摘要：一、使用衍生维度 ### 使用衍生维度 ~~~ 一个维度可以是普通维度或者是衍生维度(Derived)。 ~~~ 将维度表的维度设置为衍生维度， ~~~ 这个维度不会参与预计算，而是使用维度表的主键(或事实表的外键)来替代它。 ~~~ Kylin会在底层记录维表主键与维度表其他维度之间的映射关系，阅读全文

posted @ 2022-04-14 14:41 yanqi_vip 阅读(53) 评论(0) 推荐(0)

|NO.Z.00017|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V17|——|Kylin.v17|Cube优化|检查Cube大小|

摘要：一、检查Cube大小 ### 检查Cube大小 ~~~ 在Web GUI的Model页面选择一个READY状态的Cube， ~~~ 光标移到该Cube的Cube Size列时，Web GUI会提示Cube的源数据大小， ~~~ 以及当前Cube的大小除以源数据大小的比例，称为膨胀率（Expansio 阅读全文

posted @ 2022-04-14 14:40 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00015|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V15|——|Kylin.v15|Cube优化|Cuboid剪枝优化|

摘要：一、Cube优化 ### Cuboid剪枝优化 ~~~ Cuboid 特指 Kylin 中在某一种维度组合下所计算的所有数据。 ~~~ 以减少Cuboid数量为目的的优化统称为Cuboid剪枝。 ### 在没有采取任何优化措施的情况下，Kylin会对每一种维度的组合进行预计算。 ~~~ 如果有4个维阅读全文

posted @ 2022-04-14 14:39 yanqi_vip 阅读(62) 评论(0) 推荐(0)

|NO.Z.00016|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V16|——|Kylin.v16|Cube优化|检查Cuboid数量|

摘要：一、检查Cuboid数量 ### 检查Cuboid数量 ~~~ Apache Kylin提供了一个简单的工具， ~~~ 检查Cube中哪些Cuboid最终被预计算了，称这些Cuboid为被物化的Cuboid， ~~~ 该工具还能给出每个Cuboid所占空间的估计值。 ~~~ 由于该工具需要在对数据进阅读全文

posted @ 2022-04-14 14:39 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00013|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V13|——|Kylin.v13|Kylin构建Cube|Segment管理|配置保留|

摘要：一、配置保留Segment ### 配置保留Segment ~~~ 自动合并是将多个Segment合并为一个Segment，以达到清理碎片的目的。 ~~~ 保留Segment则是及时清理不再使用的Segment。 ### 在很多场景中，只会对过去一段时间内的数据进行查询，例如： ~~~ 对于某个只显阅读全文

posted @ 2022-04-14 14:38 yanqi_vip 阅读(39) 评论(0) 推荐(0)

|NO.Z.00014|——————————|^^ 配置 ^^|——|Hadoop&OLAP_Kylin.V14|——|Kylin.v14|Kylin构建Cube|Segment管理|使用JDBC连接操作Kylin|

摘要：一、使用JDBC连接操作Kylin ### 使用JDBC连接操作Kylin ~~~ 要将数据以可视化方式展示出来，需要使用Kylin的JDBC方式连接执行SQL，获取Kylin的执行结果 ~~~ 使用Kylin的JDBC与JDBC操作MySQL一致 ~~~ jdbc url：jdbc:kylin:/ 阅读全文

posted @ 2022-04-14 14:38 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00012|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V12|——|Kylin.v12|Kylin构建Cube|Segment管理|自动触发合并|

摘要：一、自动触发合并segment ### 自动触发合并segment ~~~ 手动维护Segment很繁琐，人工成本很高，Kylin中是可以支持自动合并Segment。 ~~~ 在Cube Designer的“Refresh Settings”的页面中有： ~~~ Auto Merge Thresho 阅读全文

posted @ 2022-04-14 14:37 yanqi_vip 阅读(69) 评论(0) 推荐(0)

|NO.Z.00010|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V10|——|Kylin.v10|Kylin构建Cube|增量构建Cube.V3|

摘要：一、定义数据源 ### 定义数据源 ~~~ 定义数据源 ~~~ 加载数据 ~~~ 查看加载的数据二、定义model ### 定义model ~~~ 定义model ~~~ 定义分区三、定义cube ### 定义cube ~~~ 定义cube ~~~ 定义维度 ~~~ 措施 ~~~ Refresh 阅读全文

posted @ 2022-04-14 14:36 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V11|——|Kylin.v11|Kylin构建Cube|Segment管理|手动触发合并删除|

摘要：一、Segment管理 ### Segment管理 ~~~ 增量构建的Cube每天都可能会有新的增量， ~~~ 这样的Cube中最终可能包含很多 Segment，这将导致Kylin性能受到严重影响。 ~~~ 从执行引擎的角度来说，运行时的查询引擎需要聚合多个Segment的结果才能返回正确的查询结果阅读全文

posted @ 2022-04-14 14:36 yanqi_vip 阅读(56) 评论(0) 推荐(0)

|NO.Z.00009|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V09|——|Kylin.v09|Kylin构建Cube|增量构建Cube.V2|

摘要：一、增量Cube构建 ### 增量cube构建流程 ~~~ 步骤：定义数据源 => 定义model => 定义Cube => 构建Cube 二、定义数据源 ### 准备数据源 ~~~ # 准备数据源 [root@hadoop02 ~]# ll /data/kylin/ ~~~准备数据源 dw_sal 阅读全文

posted @ 2022-04-14 14:35 yanqi_vip 阅读(15) 评论(0) 推荐(0)

|NO.Z.00008|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V08|——|Kylin.v08|Kylin构建Cube|增量构建Cube.V1|

摘要：一、增量构建Cube ### 增量构建cube ~~~ 在大多数业务场景下，Hive中的数据处于不断增长的状态 ~~~ 为了支持在构建Cube时，无需重复处理历史数据，引入增量构建功能二、Segment ### Kylin将Cube划分为多个Segment（对应就是HBase中的一个表） ~~~ 阅读全文

posted @ 2022-04-14 14:34 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00007|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V07|——|Kylin.v07|Kylin构建Cube|4个维度构建cube|

摘要：一、创建Cube（按日期、区域、产品、渠道） ### Cube设计： ### cube执行流程 ~~~ 维度：日期、渠道、区域、产品 ~~~ 指标：销售总金额、订单总笔数 ### SQL： select t1.date1, t2.regionid, t2.regionname, t3.product 阅读全文

posted @ 2022-04-14 14:33 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00005|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V05|——|Kylin.v05|Kylin构建Cube|按日期维度构建cube.V2|

摘要：一、按日期维度构建cube： ### 按日期维度构建cube： ~~~ 创建项目（Project） ~~~ 输入项目名称二、创建数据源 ### 创建数据源 ~~~ 创建数据源（DataSource）三、创建模型（Model）选择new model ### 创建模型（Model）选择new mod 阅读全文

posted @ 2022-04-14 14:32 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00006|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V06|——|Kylin.v06|Kylin构建Cube|按渠道维度构建cube|

摘要：一、创建Cube（按渠道） ### Cube设计： ### 设计结构 ~~~ 维度：渠道 ~~~ 指标：销售总金额、订单总笔数、最大订单金额、订单的平均金额 ### SQL： select t2.channelid, t2.channelname, sum(t1.price), max(t1.pri 阅读全文

posted @ 2022-04-14 14:32 yanqi_vip 阅读(23) 评论(0) 推荐(0)

|NO.Z.00004|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V04|——|Kylin.v04|Kylin构建Cube|按日期维度构建cube.V1|

摘要：一、创建 Cube（按日期） ### 核心步骤：DataSource => Model => Cube ~~~ Model：描述了一个星型模式的数据结构， ~~~ 定义事实表（Fact Table）和维表（Lookup Table），以及它们之间的关系。 ~~~ 基于一个model可创建多个Cube 阅读全文

posted @ 2022-04-14 14:31 yanqi_vip 阅读(41) 评论(0) 推荐(0)

|NO.Z.00001|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V01|——|Kylin.v01|概述|

摘要：一、Apache Kylin 实战 ### 课程概述： ~~~ 概述(历史、特点、应用场景；基本术语；技术架构；工作原理；生态) ~~~ 安装配置 ~~~ 构建Cube (全量构建) ~~~ 增量构建Cube ~~~ Cube优化 ~~~ 流式构建 ### Apache Kylin实战 ~~~ Ap 阅读全文

posted @ 2022-04-14 14:30 yanqi_vip 阅读(40) 评论(0) 推荐(0)

导航

公告