随笔分类 - 大数据

摘要:笔者目前开发运维的存储系统的服务器都跑在SSD之上,目前单机服务器最大的SSD容量有4T之多。( 公司好有钱,以前在实验室都只有机械硬盘用的~~ )但SSD本身的特性与机械硬盘差距较大,虽然说在性能上有诸多优势,但是如果使用的方式方法不对,反而会事倍功半。所以笔者花时间调研了一下固态硬盘的结构与特性 阅读全文
posted @ 2018-09-21 11:54 HappenLee 阅读 (732) | 评论 (2) 编辑
摘要:这个系列文章之前因为私事荒废了很久,继续更新~~之前与老大谈论架构时,老大和我聊了聊分布式数据处理之中的 Lambda结构 ,之前在《Designing Data Intensive Applications》这本书之中,作者 "Martin Kleppmann" 也在文中涉及到了通过重型批处理与灵 阅读全文
posted @ 2018-08-08 10:16 HappenLee 阅读 (2001) | 评论 (0) 编辑
摘要:连续两篇文章都聊了不同的存储格式,这篇我们继续深入来看看在存储格式的演变之上有什么新的 "黑科技" 。华为公司在2016年开源了类parquet的列存格式: CarbonData ,并且贡献给了Apache社区。CarbonData仅仅用了不到一年的时间就成功毕业,成为了Apache社区的顶级项目, 阅读全文
posted @ 2018-06-20 09:33 HappenLee 阅读 (6337) | 评论 (0) 编辑
摘要:上一篇文章聊了聊基于PAX的混合存储结构的RCFile,其实这里笔者还了解一些八卦,RCfile的主力团队都是来自中科院的童鞋在Facebook完成的,算是一个由华人主导的编码项目。但是RCfile仍然存在一些缺陷,后续被 HortonWorks 盯上之后上马了 ORCFile 格式,而老对头 Cl 阅读全文
posted @ 2018-05-25 10:46 HappenLee 阅读 (1937) | 评论 (1) 编辑
摘要:前段时间一直在忙碌写毕设与项目的事情,很久没有写一些学习心得与工作记录了,开了一个新的坑,希望能继续坚持写作与记录分布式存储相关的知识。为什么叫小视角呢?因为属于随想型的内容,可能一个由小的视角来审视海量数据的存储与计算技术,把知识点分为两到三章来梳理。 管中窥豹,可见一斑,希望能利用这个过程提高自 阅读全文
posted @ 2018-05-04 19:08 HappenLee 阅读 (400) | 评论 (0) 编辑