摘要: 上一篇文章聊了聊基于PAX的混合存储结构的RCFile,其实这里笔者还了解一些八卦,RCfile的主力团队都是来自中科院的童鞋在Facebook完成的,算是一个由华人主导的编码项目。但是RCfile仍然存在一些缺陷,后续被 HortonWorks 盯上之后上马了 ORCFile 格式,而老对头 Cl 阅读全文
posted @ 2018-05-25 10:46 HappenLee 阅读(3815) 评论(1) 推荐(0) 编辑
摘要: C++11的版本在vector容器添加了 emplace_back方法 ,相对于原先的push_back方法能够在一定程度上提升vector容器的表现性能。所以我们从STL源码角度来切入,看看这两种方法有什么样的区别,新引进的方法又有什么可学习参考之处。 1.emplace_back的用法 empl 阅读全文
posted @ 2018-05-21 19:49 HappenLee 阅读(2409) 评论(0) 推荐(1) 编辑
摘要: 前段时间一直在忙碌写毕设与项目的事情,很久没有写一些学习心得与工作记录了,开了一个新的坑,希望能继续坚持写作与记录分布式存储相关的知识。为什么叫小视角呢?因为属于随想型的内容,可能一个由小的视角来审视海量数据的存储与计算技术,把知识点分为两到三章来梳理。 管中窥豹,可见一斑,希望能利用这个过程提高自 阅读全文
posted @ 2018-05-04 19:08 HappenLee 阅读(855) 评论(0) 推荐(1) 编辑
摘要: 上一篇C++的博客是Long Long ago了,前文讲到在看 Lambda表达式 的内容。笔者首次接触Lambda表达式应该是学习Python语言的时候,当时也不太明白这种表达方式的精髓,后续接触了Scala与Java8的链式调用与Lambda结合的方式,深陷无法自拔。所以借上一篇闭包的内容。我们 阅读全文
posted @ 2018-04-30 16:56 HappenLee 阅读(584) 评论(0) 推荐(1) 编辑
摘要: 实验室拟态存储的项目需要通过LVS NAT模式通过LVS服务器来区隔内外网的服务,所以安全防护的重心则落在了LVS服务器之上。笔者最终选择 通过firewalld放行端口 的方式来实现需求,由于firewall与传统Linux使用的iptable工具有不小的区别,接下来通过博客来记录一下firewa 阅读全文
posted @ 2018-04-24 12:45 HappenLee 阅读(3539) 评论(0) 推荐(0) 编辑
摘要: 终于来到这本书最后的一章了 "《Designing Data Intensive Applications》" 大部头,这本书应该是我近两年读过最棒的技术书籍。作者 "Martin Kleppmann" 帮助我们梳理了数据系统的纷繁复杂的技术逻辑,在这本书的最后,他将带领我们瞭望数据系统的未来,虽然 阅读全文
posted @ 2018-03-26 15:44 HappenLee 阅读(862) 评论(1) 推荐(0) 编辑
摘要: 由于实验室拟态存储的项目需要通过NAT模式来映射NFS服务器已实现负载均衡的目的,通过调研了多种负载均衡机制,笔者最终选择了 LVS的NAT模式 来实现需求,接下来通过博客来记录一下LVS NAT模式的配置流程。 1.LVS服务的简介: LVS 是 Linux Virtual Server 的简写, 阅读全文
posted @ 2018-03-14 21:16 HappenLee 阅读(6459) 评论(0) 推荐(0) 编辑
摘要: 上一篇聊了聊批处理的缺点,对于无界数据来说, 流处理 会是更好的选择,“流”指的是随着时间的推移逐步增加的数据。消息队列可以将这些流组织起来,快速的在应用程序中给予反馈。但是消息队列与传统的数据库之间又存在着“剪不断,理还乱”的“纠葛”,最后我们将探讨通过消息队列之中与时序有关的一些问题。 文件是批 阅读全文
posted @ 2018-03-06 14:15 HappenLee 阅读(3092) 评论(0) 推荐(1) 编辑
摘要: 上篇的内容,我们探讨了分布式计算中的 MapReduce与批处理 。所以本篇我们将继续探索分布式计算优化的相关细节,并且分析MapReduce与批处理的局限性,看看 流式计算 是否能给我们在分布式计算层面提供一个更好的解决方案。 1.MapReduce的局限 MapReduce作业是独立于其他作业, 阅读全文
posted @ 2018-02-28 18:09 HappenLee 阅读(702) 评论(0) 推荐(0) 编辑
摘要: 之前的文章大量的内容在和大家探讨分布式存储,接下来的章节进入了分布式计算领域。坦白说,个人之前专业的重心侧重于存储,对许多计算的内容理解可能不是和确切,如果文章中的理解有所不妥,愿虚心赐教。本篇将和大家聊一聊分布式计算的一个子集: 批处理 。 批处理系统通常也叫脱机系统 ,需要大量的输入数据,运行一 阅读全文
posted @ 2018-02-23 20:34 HappenLee 阅读(1704) 评论(0) 推荐(1) 编辑