2011年5月8日

[google论文三]MapReduce:简化大集群上的数据处理(下)

摘要: 转载请注明:http://duanple.blog.163.com/blog/static/70971767201092673696/作者 phylips@bmy5.性能在本节中我们将通过运行在大集群的机器上的两个计算来测量MapReduce的性能。一个计算在大概1TB的数据中搜索给定模式的文本。另一个计算对接近1T的数据进行排序。这两个程序就可以代表MapReduce用户所写的实际程序中的大部分子集:一类是将数据从一种表现形式转换为另一种表现形式的程序,另一类就是从一个大数据集合中抽取少量感兴趣的数据集。5.1 集群配置所有的程序都是在一个由将近1800台机器组成的集群上执行。每台机器有2个 阅读全文

posted @ 2011-05-08 11:12 liurong198426 阅读(435) 评论(0) 推荐(0)

[google论文三] MapReduce:简化大集群上的数据处理(上)

摘要: 转载请注明:http://duanple.blog.163.com/blog/static/709717672010923203501/作者 phylips@bmy 摘要:MapReduce是一个编程模型以及用来处理和生成大数据集的一个相关实现。用户通过描述一个map函数,处理一组key/value对进而生成一组key/value对的中间结果,然后描述一个reduce函数,将具有相同key的中间结果进行归并。正如论文所表明的,很多现实世界中的任务都可以用这个模型来表达。以这种函数式风格写出来的程序在一个由普通机器组成的集群上自动的进行并行化和执行。由一个运行时系统来关注输入数据的划分细节,在机 阅读全文

posted @ 2011-05-08 11:11 liurong198426 阅读(426) 评论(0) 推荐(0)

分布式系统领域经典论文翻译集

摘要: 银河里的星星的博客论文集http://duanple.blog.163.com/blog/static/709717672011330101333271/ 阅读全文

posted @ 2011-05-08 10:36 liurong198426 阅读(176) 评论(0) 推荐(0)

2011年5月7日

[google论文二]Google文件系统(下)

摘要: 转载请注明:http://duanple.blog.163.com/blog/static/7097176720109151534289/作者 phylips@bmy6.测量在这一节,我们用一些小规模的测试来展示GFS架构和实现固有的一些瓶颈,有一些数字来源于google的实际集群。6.1小规模测试我们在一个由一个master,两个master备份,16个chunkserver,16个client组成的GFS集群上进行了性能测量。这个配置是为了方便测试,实际中的集群通常会有数百个chunkserver,数百个client。所有机器的配置是,双核PIII 1.4GHz处理器,2GB内存,两个80 阅读全文

posted @ 2011-05-07 11:08 liurong198426 阅读(217) 评论(0) 推荐(0)

[google论文二] Google文件系统(中)

摘要: 转载请注明:http://duanple.blog.163.com/blog/static/7097176720109151211526/作者 phylips@bmy3.系统交互我们是以尽量最小化master在所有操作中的参与度来设计系统的。在这个背景下,我们现在描述下client,master以及chunkserver如何交互来实现数据变更,记录append以及快照的。3.1租约和变更顺序一个变更是指一个改变chunk的内容或者元信息的操作,比如写操作或者append操作。每个变更都需要在所有的副本上执行。我们使用租约来保持多个副本间变更顺序的一致性。Master授权给其中的一个副本一个该c 阅读全文

posted @ 2011-05-07 11:06 liurong198426 阅读(160) 评论(0) 推荐(0)

2011年4月25日

[google论文二]Google文件系统(上)

摘要: 转载请注明:http://duanple.blog.163.com/blog/static/7097176720109145829346/作者 phylips@bmy 摘要我们设计实现了google文件系统,一个面向大规模分布式数据密集性应用的可扩展分布式文件系统。它运行在廉价的商品化硬件上提供容错功能,为大量的客户端提供高的整体性能。尽管与现有的分布式文件系统具有很多相同的目标,我们的设计更多的来源于对于我们的具体应用的负载类型以及当前甚至未来技术环境的观察,这就使得它与早期的文件系统表现出明显的不同。这也使得我们重新审视传统上的设计选择,探索出一些在根本上不同的设计观点。这个文件系统成功的 阅读全文

posted @ 2011-04-25 23:43 liurong198426 阅读(292) 评论(0) 推荐(0)

2011年4月19日

[google论文一]面向星球的网络搜索:google集群架构

摘要: 转载请注明:http://duanple.blog.163.com/blog/static/70971767201091102339246/作者 phylips@bmy为了能够支持可扩展的并行化,google的网络搜索应用让不同的查询由不同的处理器处理,同时通过划分全局索引,使得单个查询可以利用多个处理器处理。针对所要处理的工作负载类型,google的集群架构由15000个普通pc机和容错软件组成。这种架构达到了很高的性能,同时由于采用了普通pc机,也节省了采用昂贵的高端服务器的大部分花费。很少有网络服务的单个请求像搜索引擎占用那样多的计算资源。平均来看,在google上的每次查询需要读取数百 阅读全文

posted @ 2011-04-19 23:27 liurong198426 阅读(461) 评论(0) 推荐(0)

2011年4月4日

一个完整项目的软件测试分享

摘要: 工作了40天,终于完成了项目的开发,在测试方向有点感受,分享一下.项目背景:项目背景基本是一个调度系统,用户在web页面做相关的参数输入,之后通过rpc call到server, server再进行相关调度,发送命令给各个client,而client再和分配在各台机器的agent进行通讯完成最后的操作.整个项目4个人完成,2个同事做web相关的开发,我做client和agent相关的开发,另外一个同事做调度流程的开发,可以说是一个经典的前中后协作开发. 1、测试的目的和意义.首先非常明确,在前中后集成阶段之前,测试的最终目的必然是为了隔离异常.因此任何时候都需要从这个基点出发,这样才能迅速有. 阅读全文

posted @ 2011-04-04 21:50 liurong198426 阅读(966) 评论(2) 推荐(2)

导航