摘要: 关注公众号:大数据技术派,回复: 资料,领取1024G资料。 我的博客 数据仓库系列文章 数仓建模—指标体系 数仓建模—宽表的设计 数据湖是谁?那数据仓库又算什么? 数据仓库之拉链表 数仓架构发展史 数仓建模分层理论 数据仓库建模方法论 sqoop用法之mysql与hive数据导入导出 作为一个标准 阅读全文
posted @ 2021-02-10 23:53 大数据技术派 阅读(3839) 评论(6) 推荐(5) 编辑
摘要: 关注公众号:大数据技术派,回复: 资料,领取1024G资料。 主要内容 发展史 时代的变迁,生死的轮回,历史长河滔滔,没有什么是永恒的,只有变化才是不变的,技术亦是如此,当你选择互联网的那一刻,你就相当于乘坐了一个滚滚向前的时代列车,开往未知的方向,不论什么样的技术架构只有放在当前的时代背景下,才是 阅读全文
posted @ 2020-12-13 12:36 大数据技术派 阅读(1830) 评论(3) 推荐(6) 编辑
摘要: 概论 HashMap 是无论在工作还是面试中都非常常见常考的数据结构。比如 Leetcode 第一题 Two Sum 的某种变种的最优解就是需要用到 HashMap 的,高频考题 LRU Cache 是需要用到 LinkedHashMap 的。HashMap 用起来很简单,所以今天我们来从源码的角度 阅读全文
posted @ 2020-11-28 16:24 大数据技术派 阅读(1151) 评论(7) 推荐(9) 编辑
摘要: clickhouse目前用在实时BI后台,只要数据稳定落库了,出报表很快,临时查询也很快,在使用过程中,对它的一些优点和不足也是深有体会,这里总结一下,不能做到面面俱到,但尽可能详细的介绍实际应用需要注意的问题和应用技巧。 我们是通过编写Flink程序,消费kafka数据,将数据清洗,扩充维度,然后 阅读全文
posted @ 2024-03-19 11:08 大数据技术派 阅读(311) 评论(2) 推荐(1) 编辑
摘要: Flink系列文章 第01讲:Flink 的应用场景和架构模型 第02讲:Flink 入门程序 WordCount 和 SQL 实现 第03讲:Flink 的编程模型与其他框架比较 第04讲:Flink 常用的 DataSet 和 DataStream API 第05讲:Flink SQL & Ta 阅读全文
posted @ 2024-01-18 16:30 大数据技术派 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 本文讲解 Flink 用于访问外部数据存储的异步 I/O API。 对于不熟悉异步或者事件驱动编程的用户,建议先储备一些关于 Future 和事件驱动编程的知识。 对于异步 I/O 操作的需求 在与外部系统交互(用数据库中的数据扩充流数据)的时候,需要考虑与外部系统的通信延迟对整个流处理应用的影响。 阅读全文
posted @ 2024-01-16 14:01 大数据技术派 阅读(52) 评论(0) 推荐(0) 编辑
摘要: 在本文中,我们将深入研究ClickHouse索引。我们将对此进行详细说明和讨论: ClickHouse的索引与传统的关系数据库有何不同 ClickHouse是怎样构建和使用主键稀疏索引的 ClickHouse索引的最佳实践 这篇文章主要关注稀疏索引,clickhouse主键使用的就是稀疏索引。 数据 阅读全文
posted @ 2023-04-27 21:21 大数据技术派 阅读(433) 评论(0) 推荐(0) 编辑
摘要: 我的gitee地址:https://gitee.com/ddxygq/bigdata-technical-pai ,相关文章都放到这个仓库里了。 只有 MergeTree 系列里的表可支持副本: ReplicatedMergeTree ReplicatedSummingMergeTree Repli 阅读全文
posted @ 2022-12-23 13:45 大数据技术派 阅读(499) 评论(0) 推荐(1) 编辑
摘要: Clickhouse 中最强大的表引擎当属 MergeTree (合并树)引擎及该系列(*MergeTree)中的其他引擎。 MergeTree 系列的引擎被设计用于插入极大量的数据到一张表当中。数据可以以数据片段的形式一个接着一个的快速写入,数据片段在后台按照一定的规则进行合并。相比在插入时不断修 阅读全文
posted @ 2022-12-22 10:24 大数据技术派 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 本文首发于我的个人博客:ClickHouse简介 什么是ClickHouse? ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。 在传统的行式数据库系统中,数据按如下顺序存储: | Row | WatchID | JavaEnable | Title | Good 阅读全文
posted @ 2022-12-14 17:34 大数据技术派 阅读(828) 评论(0) 推荐(0) 编辑
摘要: 文章都在个人博客网站:https://www.ikeguang.com/ 同步,欢迎访问。 最近看到有人在用flink sql的页面管理平台,大致看了下,尝试安装使用,比原生的flink sql界面确实好用多了,我们看下原生的,通过bin/sql-client.sh命令进入那个黑框,一只松鼠,对,就 阅读全文
posted @ 2022-12-02 09:57 大数据技术派 阅读(1184) 评论(0) 推荐(3) 编辑
摘要: 公众号文章都在个人博客网站:https://www.ikeguang.com/ 同步,欢迎访问。 业务需要一种OLAP引擎,可以做到实时写入存储和查询计算功能,提供高效、稳健的实时数据服务,最终决定ClickHouse。 什么是ClickHouse? ClickHouse是一个用于联机分析(OLAP 阅读全文
posted @ 2022-12-01 09:43 大数据技术派 阅读(1201) 评论(0) 推荐(0) 编辑
摘要: 本文首发我的个人博客:paddleocr安装教程快速开始 1. 安装Python环境 wget https://mirrors.huaweicloud.com/python/3.8.5/Python-3.8.5.tgz 下载后,解压,编译,安装,即可。 2. 安装paddle-gpu 简单文档:ht 阅读全文
posted @ 2022-09-20 14:48 大数据技术派 阅读(1104) 评论(0) 推荐(1) 编辑