文章分类 - 大数据MPP-01-Clickhouse
Clickhouse rollup 与 cube
摘要:一、rollup与cube 1、首先先说明一下何为rollup与cube rollup:字面意思为上卷,是GROUP BY子句的一种扩展,生成的结果集显示了所选列中值的某一层次结构的聚合,从右至左去掉维度进行小计。 cube:(切片)也是GROUP BY子句的一种扩展,可以返回每一个列组合的小计记录
阅读全文
SQL 取A、B字段交叉数据,保留一条
摘要:一、需求 有些数据写入表中时,a\b两个字段中的值,会才能在交叉存储的问题, 比如: a b 1 2 2 1 现在想在查询结果中,值保留 1 2 一条数据,顺序可忽略。 二、测试 1、建表 create table mytest ( a Int32, b Int32 ) ENGINE=Mergetr
阅读全文
ClickHouse优化典藏
摘要:ClickHouse优化典藏 原创 anselzhang ClickHouse周边 4月30日 收录于话题 #ClickHouse周边 2个 一、 基础优化1 表优化1.1 数据类型 建表时能用数值型或日期时间型表示的字段就不要用字符串,全String类型在以Hive为中心的数仓建设中常见,但Cli
阅读全文
Linux 简单几招模拟网络超时情况tcp socket time out
摘要:我们先来聊一聊网络超时的概念。以及模拟网络超时对我们程序的必要性 要想了解怎样模拟网络超时的情况,我们须要先了解一下 为什么会网络超时呢 简单的说:就是你向服务端发送数据请求。然尔server没返回数据,或返回数据太慢导致未收到返回数据。 比方,你要下载一个东东,你向server发送下载这个东东的请
阅读全文
github 慢处理
摘要:github越来越慢。。。。 git clone龟速已然成为常态,甚至使用的办法也无法有效解决。 看过很多种方法,例如,改hosts,换镜像等,这些对于我来说并不好使,以下介绍的是的的确确游有用的办法。 1.使用码云 将github里的仓库拉到码云中去,然后在码云下载,速度就很快。对于一般的项目而言
阅读全文
Centos7 编译安装GCC以及相关依赖
摘要:有些项目会对gcc的版本有精确要求,这使得我们必须安装指定版本gcc 系统环境ubuntu 16.04 获取安装包获取软件安装包,可以从官方的FTP上下载相应版本的压缩包,后缀 .tar.xz :http://ftp.gnu.org/gnu/gcc/tips:下载速度慢的话,可以右键迅雷下载,再拷贝
阅读全文
鲲鹏 ARM 架构编译 ClickHouse 记录(转载)
摘要:# 鲲鹏 ARM 架构编译 ClickHouse 记录(最全) [TOC] # 环境要求 软硬件 参数CPU 鲲鹏 920内存 >= 8GB硬盘 >= 100GB(编译 CK会占用 60GB)CentOS 7.6GCC 9.3.0CMake 3.18.4ClickHouse v20.3.19.4-l
阅读全文
Clickhouse 基于腾讯云存储COS的ClickHouse数据冷热分层方案(转载)
摘要:一、ClickHouse简介 ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),支持PB级数据量的交互式分析,ClickHouse最初是为YandexMetrica 世界第二大Web分析平台而开发的。多年来一直作为该系统的核心组件被该系统持续使用着。目前为止,该系统
阅读全文
ClickHouse开窗函数来袭(转载)
摘要:在今年2月6号线上举行的 ClickHouse China Spring Meetup 中,朵夫为我们带来了 ClickHouse Features 2021 的分享,其中有非常多强大的新特性,幻灯片的下载地址如下: https://presentations.clickhouse.tech/mee
阅读全文
ClickHouse分布式IN & JOIN 查询的避坑指南(转载)
摘要:一、前言 当数据表包含多个分片的时候,我们需要将普通的本地查询转换为分布式查询。当然,这个转换动作是不需要用户自己进行的,在ClickHouse里面会由Distributed表引擎代劳。Distributed表引擎的定位就好比是一个分表的中间件,它本身并不存储数据,而是分片的代理,能自动的将SQL查
阅读全文
Clickhouse drop table on cluster but not delete on zookeeper
摘要:问题描述: 在两分片,每个分片两个副本的集群环境中:使用分布式DDL创建与删除ReplicatedMergeTree表都没问题。问题出在:删除表后,再次创建此表,会报出表已存在,无法创建。查询zk后,发现删除此表后,表的元数据还在zk中,要等10分钟左右,表的元数据才被清除。如何在ch中删除表后,z
阅读全文
Clickhouse MaterializeMySQL 引擎
摘要:一、MaterializeMySQL database engine 支持的情况 使用MaterializeMySQL存储引擎,需要一下先决条件 1.支持mysql 库级别的数据同步,暂不支持表级别的。 2.MySQL 库映射到clickhouse中自动创建为ReplacingMergeTree 引
阅读全文
ClickHouse最佳实战之分布表写入流程分析(转载)
摘要:转载自:http://blog.itpub.net/69912185/viewspace-2727007/ 由于采集的数据特性,会对数据进行分区,使用的是cityHash64(imsi)%100,hash值取模100。 数据入库直接采用kafka存储引擎入库,并将数据写入分布表。 但是,在数据刷盘的
阅读全文
Clickhouse system setting and setting
摘要:从clickhouse的官网看,clickhouse的配置参数主要分了两大方面,一个是config.xml中的服务器配置参数(Server Settings),另一个是常规配置参数(setttings)。 一、Server settings https://clickhouse.tech/docs/
阅读全文
Clickhouse 使用sasl_plaintext鉴权方式连接kafka
摘要:参考: https://altinity.com/blog/clickhouse-kafka-engine-faq https://github.com/edenhill/librdkafka/blob/master/CONFIGURATION.md
阅读全文
Clickhouse 同比环比
摘要:现在我们看看 neighbor 函数有什么作用 在刚才的查询中,我们添加neighbor函数,并将offset设为-12,意思是向上取第12行的money值,即取上一年度同月份的money数:
阅读全文
Clickhouse 表的导入导出
摘要:1、导出数据 方法一: 远程导出命令,默认分割符是tab:echo 'select * from test_name' | curl ip:8123?database=mybi -uroot:password -d @- > test_name.sql 方法二: clickhouse-client
阅读全文
Too many partitions for single INSERT block(more than 100)
摘要:原创内容,转载请标明出处 使用clickhouse-client 批量导入数据时,显示 Too many partitions for single INSERT block(more than 100) 1、我创建的表,分区设置为CityHash64(column)%100,也就是可为100个分区
阅读全文
Clickhouse 立即触发分区合并的建表语句
摘要:enable_vertical_merge_algorithm = 1 vertical_merge_algorithm_min_rows_to_activate = 1 vertical_merge_algorithm_min_columns_to_activate = 1 optimize是异步
阅读全文