随笔分类 - 分布式存储
摘要:转自:http://www.hadoopsphere.com/2012/11/understanding-high-availability-options.html众所周知,Hadoop的一个软肋就是单节点的NameNode。为此,各家都推出了提高Hadoop的HA解决方案。这篇博文汇总了来自Cloudera,HortonWorks,MapR,IBM等厂家的HA解决方案:
阅读全文
摘要:http://www.samecity.com/blog/Index.asp?SortID=12
阅读全文
摘要:转自http://www.cnblogs.com/haippy/archive/2011/12/04/2276064.htmlLevelDb日知录之一:LevelDb 101 说起LevelDb也许您不清楚,但是如果作为IT工程师,不知道下面两位大神级别的工程师,那您的领导估计会Hold不住了:Jeff Dean和Sanjay Ghemawat。这两位是Google公司重量级的工程师,为数甚少的Google Fellow之二。 Jeff Dean其人:http://research.google.com/people/jeff/index.html,Google大规模分布式平台Bigtab..
阅读全文
摘要:http://www.csdn.net/article/2010-11-29/282725摘要:一、前提和设计目标 1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。 2、跑一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的
阅读全文
摘要:作者:Chuanhui|可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明本文链接地址:http://www.nosqlnotes.net/archives/119分布式文件系统很多,包括GFS,HDFS,淘宝开源的TFS,Tencent用于相册存储的TFS (Tencent FS,为了便于区别,后续称为QFS),以及Facebook Haystack。其中,TFS,QFS以及Haystack需要解决的问题以及架构都很类似,这三个文件系统称为Blob FS (Blob File System)。本文从分布式架构的角度对三种典型的文件系统进行对比。我们先看GFS和HDFS。HDF
阅读全文
摘要:Avinash Lakshman , Facebook Prashant Malik,Facebook张鹏@Sina RDC 译摘要 ABSTRACTCassandra 是一个分布式的存储引擎,用来管理分布在大量普通商用级别服务器上面的海量的结构化数据,可以提供高可用性,不存在单点故障。Cassandra设计目标,是运行在千台规模的服务器节点上面,节点可以跨越IDC.在这个规模上,大小组件都会频繁的发生故障。当故障发生时,Cassandra通过对持久层状态的有效管理,来达成整个系统的可靠性和扩展性。在很多场合,Cassandra作为一个数据库来使用,因此他借鉴了很多数据库的设计和实现策略,但是
阅读全文
摘要:http://www.open-abc.com/nosql-214.html尽管 SQL 数据库一直是我们IT行业中最有用的工具,然而,它们这样在行业中超过15年以上的“转正”终于就要寿终正寝了。现在,虽然关系型数据库仍然无所不在,但它越来越不能满足我们的需要了。NoSQL成为了业界的新宠。但是,各种 “NoSQL” 数据库之间的差异比当年众多关系型数据库之间的差异要大许多。这就加大了人们在建设自己的应用是选择合适的数据库的难度。在这篇汇总的PK中,我们对 Cassandra, Mongodb, CouchDB, Redis, Riak 和 HBase 进行了比较,以供参考:CouchDB*
阅读全文
摘要:"Principles of Computer Systems Design"http://ocw.mit.edu/resources/res-6-004-principles-of-computer-system-design-an-introduction-spring-2009/online-textbook/
阅读全文
摘要:转自:http://www.qyjohn.net/?p=1552借国庆长假的机会写了这篇长文,全面地整理了个人从虚拟化到云计算各个层面的看法。主要的内容涉及虚拟化、虚拟化管理、数据中心虚拟化、云计算、公有云与私有云、以及开放源代码。本文的全部内容均属于作者的个人观点,而不代表任何公司的观点。欢迎讨论。A、虚拟化虚拟化是指在同一台物理机器上模拟多台虚拟机的能力。每台虚拟机在逻辑上拥有独立的处理器、内存、硬盘和网络接口。使用虚拟化技术能够提高硬件资源的利用率,使得多个应用能够运行在同一台物理机上各自拥有彼此隔离的运行环境。虚拟化的也有不同的层次,例如硬件层面的虚拟化和软件层面的虚拟化。硬件虚拟化指
阅读全文
摘要:1:分布式理论CAP(Eric Brewer) Web服务无法同时满足以下3个属性Consistency(一致性),数据一致更新,所有数据变动都是同步的Availability(可用性),每个操作都必须以可预期的响应结束Partition tolerance(分区容错性),即使出现单个组件无法可用,操作依然可以完成 在任何数据库设计中,一个Web应用至多只能同时支持上面的两个属性,不可能三者兼顾。对于分布式系统来说,分区容错是基本要求,所以必然要放弃一致性。对于大型网站来说, 分区容错和可用性的要求更高,所以一般都会选择适当放弃一致性。对应CAP理论,NoSQL追求的是AP,而传统数据库追..
阅读全文
摘要:HBase是Google的BigTable架构的一个开源实现。但是我个人觉得,要做到充分了解下面两点还是有点困难的:一、HBase涵盖了BigTable规范的哪些部分?二、HBase与BigTable仍然有哪些区别?下面我将对这两个系统做些比较。在做比较之前,我要指出一个事实:HBase是非常接近BigTable论文描述的东西。撇开一些细微的不同,比如HBase 0.20使用ZooKeeper做它的分布式协调服务,HBase已经基本实现了BigTable所有的功能,所以我下面的篇幅重点落在它们细微的区别上,当然也可以说是HBase小组正在努力改进的地方上。比较范围本文比较的是基于七年前发表的论
阅读全文
摘要:原文:http://duanple.blog.163.com/blog/static/709717672011330101333271/分布式领域论文译序sql&nosql年代记SMAQ:海量数据的存储计算和查询一.google论文系列1.google系列论文译序2. The anatomy of a large-scale hypertextual Web search engine3.面向星球的网络搜索:google集群架构4.GFS:google文件系统5.mapreduce: Simplied Data Processing on Large Clusters6.bigtabl
阅读全文
摘要:本文图片来自Ricky Ho的博文MongoDB构架(MongoDBArchitecture),这是个一听就感觉很宽泛的话题,但是作者在文章中确实对MongoDB由内至外的架构进行了剖析。本文截取了其文章中的几张重点架构示意图片进行简单描述。希望对大家有用。MongoDB数据文件内部结构MongoDB在数据存储上按命名空间来划分,一个collection是一个命名空间,一个索引也是一个命名空间同一个命名空间的数据被分成很多个Extent,Extent之间使用双向链表连接在每一个Extent中,保存了具体每一行的数据,这些数据也是通过双向链接连接的每一行数据存储空间不仅包括数据占用空间,还可能包
阅读全文
摘要:转自:http://nosql-wiki.org/foswiki/bin/view/Main/TwoPhaseCommit2PC是工程上广泛使用的分布式一致性协议,它主要解决的问题是:一个事务,要么所有参与者都commit;要么所有参与者都abort。 在没有异常的情况下,2PC是很容易理解的。理解2PC的难点在于出现异常的情况下协议如何保证事务的正确执行执行。2PC协议中有两种身份:协调者(coordinator)和参与制(participant)。2PC包括两个阶段,每个阶段各自包含两个步骤。下面请跟着 笔者的思路逐渐加深对2PC协议的理解。理想时代:没有异常此时,我们假设所有参与者、网络
阅读全文
摘要:转自:http://nosql-wiki.org/foswiki/bin/view/Main/TransactonLog日志保证了数据的持久性和事务的原子性。可以简单的认为日志是一个不断追加日志记录的文件。单条日志记录是一段二进制缓冲区。 下面是本文会使用到的几条通用的日志记录:标示trasaction的开始标示transcatoin成功提交,所有对数据的修改都已经成功。由于cache的存在,在日志中看到COMMIT并不一定意味着 数据的修改都已经持久化。日志的目的就是保证所有COMMIT的事务的修改在程序程序异常退出的情况下能够保留;所有没有COMMIT 的事务的修改在程序异常退出的情况下都
阅读全文
摘要:Google File System是Google的分布式系统。本文主要对论文中的技术点进行探讨。2.3 Architecture文件路径(namespace)数据结构how to mapping from files to chunks2.6.3 Operation Log2.7 Consistency Model3.1 Lease and Mutation OrderLease协议层级leaselease带来的不可服务时间master的primary和shadow之间是否要同步lease信息Lease应该使用绝对时间还是相对时间mutation order4.4 Garbage Colle
阅读全文
摘要:本文内容1.面向的读者和预备知识2.基本概念3.实现方式4.远程过程调用5.分布式设计原则6.练习7.参考资料-----------------------------------------------------------------------------------------------------------------一、面向的读者和预备知识本教程覆盖了分布式系统设计的基本概念。预备的知识包括一定的编程经验(C++,JAVA,etc)、网络知识的基本了解,以及数据结构和算法。二、基本概念什么是一个分布式系统?在其他相关定义未明朗之前这个概念很难定义。这里,给出一个“渐进”式的定
阅读全文
摘要:1.MongoDB是什么MongoDB介绍PPT分享MongoDB GridFS介绍PPT两则初识 MongoDB GridFSMongoDB GridFS 介绍一个NoSQL与MongoDB的介绍PPTMongoDB:下一代MySQL?写给Python程序员的MongoDB介绍又一篇给Python程序员的MongoDB教程MongoDB源码研究系列文章白话MongoDB系列文章MongoDB Tailable Cursors 特性介绍MongoDB 文档阅读笔记 —— 优雅的 NoSQLMongoDB 身上的优势和劣势auto-sharding 无用论:auto-sharding vs. m
阅读全文
摘要:很多朋友反映,说NoSQLFan上的资料不少,但是要找到自己实用的太难,于是萌生做这样一个专题的想法。通过将不同NoSQL产品从入门到精通的各种资料进行汇总,希望能够让大家更快的找到适合自己的教程或文章进行阅读。本篇为Redis部分的资料汇总。保持持续更新。1.Redis是什么?十五分钟介绍 Redis数据结构Redis系统性介绍一个很棒的Redis介绍PPT强烈推荐!非同一般的Redis介绍Redis之七种武器锋利的Redisredis 适用场景与实现2.Redis内部实现Redis源码分析系列文章Redis运行流程源码解析解密Redis持久化Redis RDB文件格式全解析深入Redis内
阅读全文
浙公网安备 33010602011771号