随笔分类 - 大数据

摘要:笔者作为Apache Doris的开发者,平时感觉相关Doris的文章写的很少。主要是很多时候不知道应该去记录一些怎么样的问题,感觉写的不好就会很慌张。新的一年,希望记录自己在Doris开发过程之中所遇到一些有意思的事情。(只希望能坚持下来,别打脸~~) 言归正传,回到本篇想聊的问一个问题,笔者在开 阅读全文
posted @ 2021-02-15 11:52 HappenLee 阅读(1415) 评论(0) 推荐(1) 编辑
摘要:笔者目前开发运维的存储系统的服务器都跑在SSD之上,目前单机服务器最大的SSD容量有4T之多。( 公司好有钱,以前在实验室都只有机械硬盘用的~~ )但SSD本身的特性与机械硬盘差距较大,虽然说在性能上有诸多优势,但是如果使用的方式方法不对,反而会事倍功半。所以笔者花时间调研了一下固态硬盘的结构与特性 阅读全文
posted @ 2018-09-21 11:54 HappenLee 阅读(1531) 评论(2) 推荐(1) 编辑
摘要:这个系列文章之前因为私事荒废了很久,继续更新~~之前与老大谈论架构时,老大和我聊了聊分布式数据处理之中的 Lambda结构 ,之前在《Designing Data Intensive Applications》这本书之中,作者 "Martin Kleppmann" 也在文中涉及到了通过重型批处理与灵 阅读全文
posted @ 2018-08-08 10:16 HappenLee 阅读(2954) 评论(0) 推荐(1) 编辑
摘要:连续两篇文章都聊了不同的存储格式,这篇我们继续深入来看看在存储格式的演变之上有什么新的 "黑科技" 。华为公司在2016年开源了类parquet的列存格式: CarbonData ,并且贡献给了Apache社区。CarbonData仅仅用了不到一年的时间就成功毕业,成为了Apache社区的顶级项目, 阅读全文
posted @ 2018-06-20 09:33 HappenLee 阅读(8226) 评论(0) 推荐(3) 编辑
摘要:上一篇文章聊了聊基于PAX的混合存储结构的RCFile,其实这里笔者还了解一些八卦,RCfile的主力团队都是来自中科院的童鞋在Facebook完成的,算是一个由华人主导的编码项目。但是RCfile仍然存在一些缺陷,后续被 HortonWorks 盯上之后上马了 ORCFile 格式,而老对头 Cl 阅读全文
posted @ 2018-05-25 10:46 HappenLee 阅读(3452) 评论(1) 推荐(0) 编辑
摘要:前段时间一直在忙碌写毕设与项目的事情,很久没有写一些学习心得与工作记录了,开了一个新的坑,希望能继续坚持写作与记录分布式存储相关的知识。为什么叫小视角呢?因为属于随想型的内容,可能一个由小的视角来审视海量数据的存储与计算技术,把知识点分为两到三章来梳理。 管中窥豹,可见一斑,希望能利用这个过程提高自 阅读全文
posted @ 2018-05-04 19:08 HappenLee 阅读(777) 评论(0) 推荐(1) 编辑