boiledwater - 博客园

2021年11月22日

摘要：当我们谈论批流一体，我们在谈论什么？一、流计算与批计算一）流计算与批计算流计算：无限数据之上的计算批计算：有限数据之上的计算二）流计算与批计算的比较特性批计算流计算数据范围有界数据无界数据任务执行分批执行、有终止全部执行、无终止延时小时级、天级秒级、分钟级数据场景阅读全文

posted @ 2021-11-22 09:31 boiledwater 阅读(8842) 评论(0) 推荐(2)

2021年11月19日

Flink K8S提交

摘要： 1.创建namespace kubectl create namespace flink-session-cluster-test 2.创建账号 kubectl create serviceaccount flink-test -n flink-session-cluster-test 3.创建角色阅读全文

posted @ 2021-11-19 10:04 boiledwater 阅读(643) 评论(0) 推荐(0)

2021年9月15日

Storm近年的发展

摘要： storm作为第一款大数据领域的流式计算引擎，在2013年推出之后风头一时无二。后续虽然有spark streaming也作为流式计算的引擎，但storm依然在流式计算的江湖占有稳定的地位。直到2017年，flink作为流式计算引擎异军突起，几年间，风云突变，流计算言必谈flink。诚然，flin 阅读全文

posted @ 2021-09-15 14:42 boiledwater 阅读(512) 评论(0) 推荐(0)

2021年9月13日

Doris 最佳实践-Compaction调优

摘要： ## 什么是 Compaction Doris 的数据写入模型使用了 LSM-Tree 类似的数据结构。数据都是以追加（Append）的方式写入磁盘的。这种数据结构可以将随机写变为顺序写。这是一种面向写优化的数据结构，他能增强系统的写入吞吐，但是在读逻辑中，需要通过 Merge-on-Read 的方阅读全文

posted @ 2021-09-13 10:42 boiledwater 阅读(4177) 评论(0) 推荐(0)

2020年9月3日

如何读取jar包中的文件

摘要： 1.getResource //当前类文件为根目录，取其子目录x下的y文件 Main.class.getResource("x/y") //当前类文件的根目录为根目录，取其子目录x下的y文件 Main.class.getResource("/x/y") 上面的解释有点拗口，其实就是路径不以斜线开头，阅读全文

posted @ 2020-09-03 16:24 boiledwater 阅读(2675) 评论(0) 推荐(0)

2020年4月10日

Java线程池实现原理及其在美团业务中的实践（转载）

摘要：一、写在前面 1.1 线程池是什么线程池（Thread Pool）是一种基于池化思想管理线程的工具，经常出现在多线程服务器中，如MySQL。线程过多会带来额外的开销，其中包括创建销毁线程的开销、调度线程的开销等等，同时也降低了计算机的整体性能。线程池维护多个线程，等待监督管理者分配可并发执行的任阅读全文

posted @ 2020-04-10 22:01 boiledwater 阅读(627) 评论(0) 推荐(0)

适用于大数据的开源OLAP系统的比较：ClickHouse，Druid和Pinot

摘要：在这篇文章中，我想比较ClickHouse，Druid和Pinot，这三个开源数据存储区，他们通过交互延迟对大量数据运行分析查询。警告：这篇文章很大，您可能只想阅读最后的“摘要”部分。信息来源我从核心开发人员之一Alexey Zatelepin那里了解了ClickHouse的实现细节。用英语提阅读全文

posted @ 2020-04-10 21:39 boiledwater 阅读(18008) 评论(0) 推荐(0)

2020年4月8日

OLAP之Druid之查询

摘要：数据查询 Druid的聚合查询主要有三种形式: Timeseries TopN GroupBy 一般而言，OLAP系统最核心的能力是GroupBy查询，Druid也不例外。但是GroupBy查询资源消耗较多，TopN和Timeseries作为GroupBy的有益补充，能够改善查询的性能。我们建议：阅读全文

posted @ 2020-04-08 22:37 boiledwater 阅读(956) 评论(0) 推荐(0)

OLAP之Druid之实时数据摄入

摘要：实时数据摄入我们采用Kafka Indexing Service作为实时摄入数据的方案。准备工作将数据实时灌入某个Kafka topic中与批量导入数据类似：考虑清楚数据中哪一列可以作为时间列、哪些列可以作为维度列、哪些列可以作为指标列（尤其是指标的聚合函数，包括count、sum、max、阅读全文

posted @ 2020-04-08 22:33 boiledwater 阅读(867) 评论(0) 推荐(1)

OLAP之Druid之批量数据摄入

摘要：批量数据摄入准备工作确保druid帐号可以访问到位于HDFS之上的原始数据考虑清楚数据中哪一列可以作为时间列、哪些列可以作为维度列、哪些列可以作为指标列（尤其是指标的聚合函数，包括count、sum、max、min等，如果涉及UV、留存的计算，则需要使用HyperUnique或者Theta s 阅读全文

posted @ 2020-04-08 22:30 boiledwater 阅读(857) 评论(0) 推荐(0)

公告