ClickHouse笔记

执行计划

explain syntax 执行计划-返回优化后的语法

分析语法

group by 后面可以跟with xxx 进行分析，比如上卷，多维分析，聚合

ClickHouse 自带的优化器

谓词下推：

就是将能提前筛选的条件，提前执行筛选，让匹配的结果集尽量小。

比如having后的条件可以挪到where中执行，where的条件可以挪到子查询中的where中执行等等。

聚合计算外推：

聚合函数中的计算语句会优化到聚合函数外面执行，比如sum(price * 3) 会优化成 sum(price) * 3

聚合函数消除：

group by 的字段，如果使用了max min等函数，会被优化器自动消除，因为没有意义。

手动合并分区

optimize table t_table final

ClickHouse SQL注意事项

1、distinct 底层用的 uniqExact

2、用IN代替join

3、如果两张表都很大，用inner join 代替 left right

4、两张分布式表，in join前要加globa关键词，这样右表只会在接受SQL的节点查询一次，然后将结果分发到其他节点上。如果不加，会在每个节点都发起一次对右表的关联查询，而右表又是分布式的，会导致查询右表被查询N的平方次N是分片数量，导致查询放大。

同步库数据，支持想MySql一样的 Select inster语法

insert into 库1.表1 select * FROM 库2.表2 limit 1000;
insert into so_test.t_table_name_all select * FROM default.t_table_all limit 1000;

删除-表 - 操作集群下所有表

DROP table db_name.table_name ON CLUSTER sys_ck_cluster;
DROP table db_name.table_name ON CLUSTER sys_ck_cluster;

删除-分区

ALTER TABLE db_name.table_name DROP PARTITION '20220101'

删除-条件

ALTER TABLE db_name.table_name DELETE WHERE flow_year = '';

更新-条件

ALTER TABLE db_name.table_name UPDATE update_time= now(), name='zhangsan' WHERE id='100'

操作所有集群

ON CLUSTER sys_ck_cluster // sys_ck_cluster 是集群的名字

在所有集群内创建表

CREATE TABLE so_test.test_table_name ON CLUSTER sys_ck_cluster
(
    `id` Int64 COMMENT '系统自动生成id标识',
    ......................................
)
ENGINE = ReplacingMergeTree(sign)
PARTITION BY toYYYYMM(create_date)
PRIMARY KEY create_date
ORDER BY (create_date)
SETTINGS index_granularity = 8192

在所有集群内创建视图

CREATE TABLE so_test.test_table_name_all ON CLUSTER sys_ck_cluster
(
    `id` Int64 COMMENT '系统自动生成id标识',
    .....................................
)
ENGINE = Distributed('sys_ck_cluster',
 'so_test',
 'test_table_name',
 sipHash64(flow_id))

posted @ 2021-12-15 10:56 InkYi 阅读(240) 评论(0) 收藏举报

刷新页面返回顶部

InkYi

一只野生的程序猿