文章分类 - 大数据MPP-01-Clickhouse
ClickHouse-可观测性-收集CK日志
摘要:要实现基于 ClickStack(含 OpenTelemetry)、ClickHouse、HyperDX 整套工具链的日志采集方案,核心是通过 OpenTelemetry(ClickStack 的采集层) 标准化收集日志,写入 ClickHouse 存储,并确保数据格式兼容 HyperDX(UI 层
阅读全文
ClickHouse-粒度(granule)与 part 合并必要性
摘要:ClickHouse 将数据按 粒度(granule) 组织,每个粒度包含约 8192 行数据 问题:一个granule 中的数据,是物理有序还是逻辑有序? 问题二:如果part 都是逻辑有序,那么为什么还是合并part?直接记录part的文件、索引等信息不是也可以实现逻辑有序吗? 关于 Click
阅读全文
ClickHouse-part 的存储是物理有序还是逻辑有序
摘要:在 ClickHouse 中,合并后的 Part 仅保证逻辑有序(按主键) 是其高性能查询的核心机制,这一特性通过 多层索引系统、稀疏标记与数据分块 实现。理解其原理需要对比物理连续性,从逻辑组织、存储结构、查询流程三个维度展开: 1. 物理连续 vs 逻辑有序:核心差异 对比维度物理连续存储逻辑有
阅读全文
Clickhouse-标签-大宽表模式
摘要:使用 ClickHouse Map 类型实现动态标签大宽表方案 针对您的需求(动态标签个数、避免固定字段),使用 ClickHouse 的 Map 数据类型是最佳解决方案。Map 类型可以灵活存储键值对,完美适应标签数量不固定的场景。 完整实现方案 1. 数据结构设计 CREATE TABLE us
阅读全文
Clickhouse 二级索引(二)
摘要:1. 添加二级索引的完整语法 ALTER TABLE [db_name.]table_name ADD INDEX index_name expression TYPE index_type([parameters]) GRANULARITY granularity_value [AFTER exi
阅读全文
Clickhouse 二级索引(一)
摘要:ClickHouse 二级索引详解 ClickHouse 的二级索引(Skipping Indexes)是稀疏索引,用于快速跳过不满足查询条件的数据块(Granule),大幅减少 I/O 扫描量。与行级索引不同,它不定位具体行,而是跳过整块数据。以下是详细解析: 1. 索引核心机制 数据块(Gran
阅读全文
ZooKeeper上数据错乱导致ClickHouse启动失败问题
摘要:1 问题现象 ClickHouse集群中某实例节点启动失败,该实例节点启动日志中有如下类似报错信息: 2021.03.15 21:01:19.816593 [ 11111 ] {} <Error> Application: DB::Exception: The local set of parts
阅读全文
Clickhouse-ReplacingMergeTree 引擎的查询
摘要:1 五大优化方案实施 表结构:CREATE TABLE orders ( order_id UUID, -- 订单ID user_id UInt32, -- 用户ID amount Decimal(10,2), -- 订单金额 status Enum('pending'=1, 'paid'=2, '
阅读全文
Clickhouse vs timescaledb
摘要:ClickHouse与TimescaleDB在数据排序和存储方式上的对比 1. 排序机制 ClickHouse 排序依据:基于 ORDER BY 子句定义的字段进行严格排序。数据在写入时,会根据 ORDER BY 的字段值(可以是单列或多列组合)进行字典序排列,生成逻辑上的有序数据片段(Data P
阅读全文
clickhouse truncate table 卡死处理
摘要:1 问题现象 1.1 数据库集群是单节多副本集群 clickhouse-prd-ClickHousefvLb.mrs-feq4.com :) select * from system.clusters; SELECT * FROM system.clusters Query id: b77fa863
阅读全文
Clickhouse 导入 MySQL DUMP 数据
摘要:Clickhouse 导入 MySQL DUMP 数据 一、clickhouse支持的dump样式 1、官网地址 https://clickhouse.com/docs/en/interfaces/formats https://clickhouse.com/docs/en/interfaces/f
阅读全文
在clickhouse中使用正则表达式提取字段信息的方法(转载)
摘要:转载自 https://blog.csdn.net/weixin_40104766/article/details/123725494 项目中需要从URL字段中提取音视频文件名称并进行计数,其中URL的内容类似于:https://webfs.tx.kugou.com/202203210816/146
阅读全文
Clickhouse 日期处理-日期函数(转载)
摘要:1 Clickhouse 时间日期函数 注:所有的时间日期函数都可以在第二个可选参数中接受时区参数。示例:Asia / Yekaterinburg。在这种情况下,它们使用指定的时区而不是本地(默认)时区。 SELECT toDateTime('2016-06-15 23:00:00') AS tim
阅读全文
Clickhouse 第三方驱动、入库与管理工具
摘要:https://www.gitmemory.com/housepower 一、第三方驱动 ClickHouse Native JDBC https://housepower.github.io/ClickHouse-Native-JDBC/guide/introduction.html#jdbc-d
阅读全文
基于Clickhouse秒级查询6亿用户画像!到底有多6? (转载)
摘要:作者介绍 杨兆辉,苏宁科技集团大数据中心高级架构师,ClickHouse Contributor。在OLAP领域、大规模分布式计算领域有着深厚的技术积累,目前负责数据中台、标签平台相关的架构工作。 背景 想做营销活动,如何找到目标人群及用户特征?人群的筛选通常离不开用户画像。用户画像就是根据用户特征
阅读全文
Clickhouse 物化视图限制
摘要:一、针对有频繁删除或者修改 如果表数据不是只增的,而是有较频繁的删除或修改(如接入changelog的表),物化视图底层需要改用CollapsingMergeTree/VersionedCollapsingMergeTree; 二、针对表的join 如果物化视图是由两表join产生的,那么物化视图仅
阅读全文