随笔分类 - 分布式文件系统
摘要:众所周知,HDFS中以数据块(block)为单位进行存储管理。本文简单介绍一下HDFS中数据块(block)的概念,以及众多分布式存储系统(不止是HDFS)使用block作为存储管理基本单位的意义。数据块数据块的概念并不陌生,在磁盘中,每个磁盘都有默认的数据块大小,这是磁盘进行数据读/写的最小单位,磁盘块一般为512字节。在分布式文件系统中,数据块一般远大于磁盘块的大小,并且为磁盘块大小的整数倍,例如,HDFS block size默认为64MB。分布式存储系统中选择大block size的主要原因是为了最小化寻址开销,使得磁盘传输数据的时间可以明显大于定位这个块所需的时间。然而,在HDFS中
阅读全文
摘要:刚刚写这篇文章之前看了下上一篇博客的时间:2013年7月19日。居然已经过了3个月了!好快!感叹时间的同时不由的又感叹了下自己的懒惰,其实仔细想想,这段时间自己也做了很多事情:完成了一篇副本同步相关的专利撰写参与朋友创业项目的初期开发实现了一个比较粗糙的Swift监控平台Erasure Code相关内容的学习、论文阅读,主要是用在分布式存储领域只不过事情多了就有些嘈杂,没有静下心来深入的思考、整理。好啦,反思到此,接下来有时间好好整理。进入正题,也就是最近的工作内容:Erasure Code在存储系统中数据备份的应用。===================================进入E
阅读全文
摘要:Haystack是Facebook的海量图片存储系统,论文《Finding a needle in Haystack: Facebook’s photo storage》发表于OSDI 2010上的一篇文章。这个学期准备认认真真的看一些经典的存储系统的文章,这周就是Haystack。整体来说,Haystack给我最深的印象就是:简单、有效。不适用拗口的术语、复杂的理论,整个系统基于一个明确的目标:降低每个图片所需的元数据,进而使元数据可以完全访问内存,从而减少甚至避免获取图片元数据时的磁盘访问,提高对long tail(长尾)图片访问的速度。存储场景作为一个专用的存储系统,我们首先必须清晰的定
阅读全文
摘要:网易学习计划啊,都不带添加文字的么!限制我字数,还不告诉我是哪段超过了!!进入正题...每个流行的云存储系统都有自己的侧重点可选的架构很多,关键是要针对特定的应用场景系统规模大小业务类型与压力实时 / 非实时大文件 / 中等文件 / 小文件连续读写 / 随机读写吞吐率 / 低延迟强一致性 / 弱一致性性能 & 可靠性扩展性 & 单节点问题是否要求目录结构可配置 & 快速部署大数据离线/在线分析电子商务社交网络网络硬盘邮件服务图片服务语音视频服务虚拟机调度与镜像存储开放云存储平台离线型数据分析系统数据总量大,单个文件大,更注重系统吞吐率,而非低延迟。为适应流行的MapRe
阅读全文

浙公网安备 33010602011771号