随笔分类 - 大数据

摘要:上篇笔记讲到了聚合函数的实现并且带大家看了聚合函数是如何注册到ClickHouse之中的并被调用使用的。这篇笔记,笔者会续上上篇的内容,将剖析一把ClickHouse聚合流程的整体实现。 第二篇文章,我们来一起看看聚合流程的实现~~ 上车! 1.基础知识的梳理 ClickHouse的实现接口 Blo 阅读全文
posted @ 2020-07-17 11:43 HappenLee 阅读(201) 评论(0) 推荐(0) 编辑
摘要:由于工作的需求,后续笔者工作需要和开源的OLAP数据库ClickHouse打交道。ClickHouse是Yandex在2016年6月15日开源了一个分析型数据库,以强悍的单机处理能力被称道。 笔者在实际测试ClickHouse和阅读ClickHouse的源码过程之中,对"战斗民族"开发的数据库十分欣 阅读全文
posted @ 2020-06-02 10:05 HappenLee 阅读(380) 评论(0) 推荐(0) 编辑
摘要:笔者目前开发运维的存储系统的服务器都跑在SSD之上,目前单机服务器最大的SSD容量有4T之多。( 公司好有钱,以前在实验室都只有机械硬盘用的~~ )但SSD本身的特性与机械硬盘差距较大,虽然说在性能上有诸多优势,但是如果使用的方式方法不对,反而会事倍功半。所以笔者花时间调研了一下固态硬盘的结构与特性 阅读全文
posted @ 2018-09-21 11:54 HappenLee 阅读(848) 评论(2) 推荐(1) 编辑
摘要:这个系列文章之前因为私事荒废了很久,继续更新~~之前与老大谈论架构时,老大和我聊了聊分布式数据处理之中的 Lambda结构 ,之前在《Designing Data Intensive Applications》这本书之中,作者 "Martin Kleppmann" 也在文中涉及到了通过重型批处理与灵 阅读全文
posted @ 2018-08-08 10:16 HappenLee 阅读(2252) 评论(0) 推荐(1) 编辑
摘要:连续两篇文章都聊了不同的存储格式,这篇我们继续深入来看看在存储格式的演变之上有什么新的 "黑科技" 。华为公司在2016年开源了类parquet的列存格式: CarbonData ,并且贡献给了Apache社区。CarbonData仅仅用了不到一年的时间就成功毕业,成为了Apache社区的顶级项目, 阅读全文
posted @ 2018-06-20 09:33 HappenLee 阅读(7173) 评论(0) 推荐(3) 编辑
摘要:上一篇文章聊了聊基于PAX的混合存储结构的RCFile,其实这里笔者还了解一些八卦,RCfile的主力团队都是来自中科院的童鞋在Facebook完成的,算是一个由华人主导的编码项目。但是RCfile仍然存在一些缺陷,后续被 HortonWorks 盯上之后上马了 ORCFile 格式,而老对头 Cl 阅读全文
posted @ 2018-05-25 10:46 HappenLee 阅读(2320) 评论(1) 推荐(0) 编辑
摘要:前段时间一直在忙碌写毕设与项目的事情,很久没有写一些学习心得与工作记录了,开了一个新的坑,希望能继续坚持写作与记录分布式存储相关的知识。为什么叫小视角呢?因为属于随想型的内容,可能一个由小的视角来审视海量数据的存储与计算技术,把知识点分为两到三章来梳理。 管中窥豹,可见一斑,希望能利用这个过程提高自 阅读全文
posted @ 2018-05-04 19:08 HappenLee 阅读(473) 评论(0) 推荐(1) 编辑