随笔分类 - 分布式计算
摘要:hbase0.95.2部署下载安装包hbase-0.95.2-cdh5.0.0-beta-1.tar.gzhbase需对应hadoop版本解压tar zxvfhbase-0.95.2-cdh5.0.0-beta-1.tar.gzln -s /opt/hbase-0.95.2-cdh5.0.0-bet...
阅读全文
摘要:hadoop2.2.0部署下载安装包hadoop-2.2.0-cdh5.0.0-beta-1.tar.gz解压tar zxvfhadoop-2.2.0-cdh5.0.0-beta-1.tar.gzln -s /opt/hadoop-2.2.0-cdh5.0.0-beta-1 ~/hadoop所有节点...
阅读全文
摘要:下载安装包sqoop-1.99.3-bin-hadoop200.tar.gz解压tar zxvfsqoop-1.99.3-bin-hadoop200.tar.gz建立sqoop链接ln -s sqoop-1.99.3-bin-hadoop200 sqoop修改sqoop配置cd sqoopvi se...
阅读全文
摘要:Moose File System 是一个具备容错功能的网络分布式文件系统,它将数据分布在网络中的不同服务器上,MooseFS 通过FUSE使之看起来就是一个 Unix 的文件系统。MooseFS文件系统结构包括以下四种角色: 1 管理服务器managing server (master):负责各个数据存储服务器的管理,文件读写调度,文件空间回收以及恢复.多节点拷贝 2 元数据日志服务器Metalogger server(Metalogger):负责备份master服务器的变化日志文件,文件类型为changelog_ml.*.mfs,以便于在master server出问题的时候接替其进行..
阅读全文
摘要:http://www.lilyproject.org/lilyLily以NoSQL技术为主题,是建立在云计算上的内容仓库(content repository)。它是基于Apache的 HBase(存储)和Solr(索引/搜索),并提供了大型内容集合存储与检索的解决方案。可运用在 门户网站,内容管理系统,及时搜索,档案应用,文案管理,等等。Lily项目与传统的Lucene框架相比体现了以下几点关键性的优势: ·伸缩性 –> sharding/MapReduce ·可用性 –>replication ·及时性 –>real-time update
阅读全文
摘要:国人做的用C语言写的轻量级的分布式文件存储,只有 tracker和storage 节点。没有使用数据库。作者happy_fish写的介绍性页面:http://fastdfs.zhan.cn.yahoo.com/apps/ncpcontent/?module_id=19100000018373&action=read&articleid=18项目地址:http://fastdfs.zhan.cn.yahoo.com/文件下载地址:http://code.google.com/p/fastdfs/downloads/list作者做的和MogileFS的对比FastDFS设计时借鉴了
阅读全文
摘要:MogileFS 是一个开源的分布式文件系统,用于组建分布式文件集群,由 LiveJournal 旗下 Danga Interactive 公司开发,Danga 团队开发了包括 Memcached、MogileFS、Perlbal 等不错的开源项目:(注:Perlbal 是一个强大的 Perl 写的反向代理服务器)。目前国内使用 MogileFS 的有图片托管网站 yupoo 等。 MogileFS 是 51.com 的存储设计的大师碧轩非常推荐的,51 的集群文件系统也是基于这个原理实现的。简单来讲 MogileFS 是基于 Google File System 实作出来的.官方的介绍网站:
阅读全文
摘要:mogileFS是一个分布式文件存储的解决方案,他由Six Apart开发下面列出了他的一些特性(由mogileFS页面http://www.danga.com/mogilefs/ 介绍翻译而来)应用层——不需要特殊的核心组件无单点失败——MogileFS安装的三个组件(存储节点、跟踪器、跟踪用的数据库),均可运行在多个 机器上,因此没有单点失败。(你也可以将跟踪器和存储节点运行在同一台机器上,这样你就没有必要用4台机器)推荐至少两台机器。自 动的文件复制——基于不同的文件“分类”,文件可以被自动的复制到多个有足够存储空间的存储节点上,这样可以满足这个“类别”的最少复制要求。比如你有一 个图片
阅读全文
摘要:支持并发的第一个处理器提供原子的测试并设置操作,通常在单位上运行这项操作。现在的处理器(包括 Intel 和 Sparc 处理器)使用的最通用的方法是实现名为比较并转换或 CAS 的原语。(在 Intel 处理器中,比较并交换通过指令的 cmpxchg 系列实现。PowerPC 处理器有一对名为“加载并保留”和“条件存储”的指令,它们实现相同的目地;MIPS 与 PowerPC 处理器相似,除了第一个指令称为“加载链接”。) CAS 操作包含三个操作数 —— 内存位置(V)、预期原值(A)和新值(B)。如果内存位置的值与预期原值相匹配,那么处理器会自动将该位置值更新为新值。否则,处理器不做任.
阅读全文
摘要:在上个月举行的创新数据系统研讨会上(CIDR),Google公开了其Megastore分布式存储技术的白皮书。Megastore是谷歌一个内部的存储系统,它的底层数据存储依赖Bigtable,也就是基于NoSql实现的,但是和传统的NoSql不同的是,它实现了类似RDBMS的数据模型(便捷性),同时提供数据的强一致性解决方案(同一个datacenter,基于MVCC的事务实现),并且将数据进行细颗粒度的分区(这里的分区是指在同一个datacenter,所有datacenter都有相同的分区数据),然后将数据更新在机房间进行同步复制(这个保证所有datacenter中的数据一致)。Megasto
阅读全文
摘要:HadoopMap/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个廉价机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。一个Map/Reduce作业(job)通常会把输入的数据集切分成若干的数据块,由map任务(task)以完全并行的方式处理它们。框架会对map的输出进行排序,然后结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已失败的任务。通常,Map/Reduce框架和分布式文件系统是运行在一组相同节点上的,也就是说,计算节点和存储节点通常在一起。这种配置允许框架在那些已经
阅读全文

浙公网安备 33010602011771号