文章分类 - 大数据MPP-01-Clickhouse
在clickhouse中使用正则表达式提取字段信息的方法(转载)
摘要:转载自 https://blog.csdn.net/weixin_40104766/article/details/123725494 项目中需要从URL字段中提取音视频文件名称并进行计数,其中URL的内容类似于:https://webfs.tx.kugou.com/202203210816/146
阅读全文
Clickhouse 日期处理-日期函数(转载)
摘要:1 Clickhouse 时间日期函数 注:所有的时间日期函数都可以在第二个可选参数中接受时区参数。示例:Asia / Yekaterinburg。在这种情况下,它们使用指定的时区而不是本地(默认)时区。 SELECT toDateTime('2016-06-15 23:00:00') AS tim
阅读全文
Clickhouse 第三方驱动、入库与管理工具
摘要:https://www.gitmemory.com/housepower 一、第三方驱动 ClickHouse Native JDBC https://housepower.github.io/ClickHouse-Native-JDBC/guide/introduction.html#jdbc-d
阅读全文
基于Clickhouse秒级查询6亿用户画像!到底有多6? (转载)
摘要:作者介绍 杨兆辉,苏宁科技集团大数据中心高级架构师,ClickHouse Contributor。在OLAP领域、大规模分布式计算领域有着深厚的技术积累,目前负责数据中台、标签平台相关的架构工作。 背景 想做营销活动,如何找到目标人群及用户特征?人群的筛选通常离不开用户画像。用户画像就是根据用户特征
阅读全文
Clickhouse 物化视图限制
摘要:一、针对有频繁删除或者修改 如果表数据不是只增的,而是有较频繁的删除或修改(如接入changelog的表),物化视图底层需要改用CollapsingMergeTree/VersionedCollapsingMergeTree; 二、针对表的join 如果物化视图是由两表join产生的,那么物化视图仅
阅读全文
Clickhouse rollup 与 cube
摘要:一、rollup与cube 1、首先先说明一下何为rollup与cube rollup:字面意思为上卷,是GROUP BY子句的一种扩展,生成的结果集显示了所选列中值的某一层次结构的聚合,从右至左去掉维度进行小计。 cube:(切片)也是GROUP BY子句的一种扩展,可以返回每一个列组合的小计记录
阅读全文
SQL 取A、B字段交叉数据,保留一条
摘要:一、需求 有些数据写入表中时,a\b两个字段中的值,会才能在交叉存储的问题, 比如: a b 1 2 2 1 现在想在查询结果中,值保留 1 2 一条数据,顺序可忽略。 二、测试 1、建表 create table mytest ( a Int32, b Int32 ) ENGINE=Mergetr
阅读全文
ClickHouse优化典藏
摘要:ClickHouse优化典藏 原创 anselzhang ClickHouse周边 4月30日 收录于话题 #ClickHouse周边 2个 一、 基础优化1 表优化1.1 数据类型 建表时能用数值型或日期时间型表示的字段就不要用字符串,全String类型在以Hive为中心的数仓建设中常见,但Cli
阅读全文
Linux 简单几招模拟网络超时情况tcp socket time out
摘要:我们先来聊一聊网络超时的概念。以及模拟网络超时对我们程序的必要性 要想了解怎样模拟网络超时的情况,我们须要先了解一下 为什么会网络超时呢 简单的说:就是你向服务端发送数据请求。然尔server没返回数据,或返回数据太慢导致未收到返回数据。 比方,你要下载一个东东,你向server发送下载这个东东的请
阅读全文
github 慢处理
摘要:github越来越慢。。。。 git clone龟速已然成为常态,甚至使用的办法也无法有效解决。 看过很多种方法,例如,改hosts,换镜像等,这些对于我来说并不好使,以下介绍的是的的确确游有用的办法。 1.使用码云 将github里的仓库拉到码云中去,然后在码云下载,速度就很快。对于一般的项目而言
阅读全文
Centos7 编译安装GCC以及相关依赖
摘要:有些项目会对gcc的版本有精确要求,这使得我们必须安装指定版本gcc 系统环境ubuntu 16.04 获取安装包获取软件安装包,可以从官方的FTP上下载相应版本的压缩包,后缀 .tar.xz :http://ftp.gnu.org/gnu/gcc/tips:下载速度慢的话,可以右键迅雷下载,再拷贝
阅读全文
鲲鹏 ARM 架构编译 ClickHouse 记录(转载)
摘要:# 鲲鹏 ARM 架构编译 ClickHouse 记录(最全) [TOC] # 环境要求 软硬件 参数CPU 鲲鹏 920内存 >= 8GB硬盘 >= 100GB(编译 CK会占用 60GB)CentOS 7.6GCC 9.3.0CMake 3.18.4ClickHouse v20.3.19.4-l
阅读全文
Clickhouse 基于腾讯云存储COS的ClickHouse数据冷热分层方案(转载)
摘要:一、ClickHouse简介 ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),支持PB级数据量的交互式分析,ClickHouse最初是为YandexMetrica 世界第二大Web分析平台而开发的。多年来一直作为该系统的核心组件被该系统持续使用着。目前为止,该系统
阅读全文
ClickHouse开窗函数来袭(转载)
摘要:在今年2月6号线上举行的 ClickHouse China Spring Meetup 中,朵夫为我们带来了 ClickHouse Features 2021 的分享,其中有非常多强大的新特性,幻灯片的下载地址如下: https://presentations.clickhouse.tech/mee
阅读全文
ClickHouse分布式IN & JOIN 查询的避坑指南(转载)
摘要:一、前言 当数据表包含多个分片的时候,我们需要将普通的本地查询转换为分布式查询。当然,这个转换动作是不需要用户自己进行的,在ClickHouse里面会由Distributed表引擎代劳。Distributed表引擎的定位就好比是一个分表的中间件,它本身并不存储数据,而是分片的代理,能自动的将SQL查
阅读全文
Clickhouse drop table on cluster but not delete on zookeeper
摘要:问题描述: 在两分片,每个分片两个副本的集群环境中:使用分布式DDL创建与删除ReplicatedMergeTree表都没问题。问题出在:删除表后,再次创建此表,会报出表已存在,无法创建。查询zk后,发现删除此表后,表的元数据还在zk中,要等10分钟左右,表的元数据才被清除。如何在ch中删除表后,z
阅读全文
Clickhouse MaterializeMySQL 引擎
摘要:一、MaterializeMySQL database engine 支持的情况 使用MaterializeMySQL存储引擎,需要一下先决条件 1.支持mysql 库级别的数据同步,暂不支持表级别的。 2.MySQL 库映射到clickhouse中自动创建为ReplacingMergeTree 引
阅读全文
浙公网安备 33010602011771号