随笔分类 - Cloud Computing
云计算的研究与分析
摘要:Map-Reduce的过程解析
阅读全文
摘要:Map-Reduce入门
阅读全文
摘要:HDFS读写过程解析
阅读全文
摘要:Hadoop HDFS简介
阅读全文
摘要:Hadoop 源代码分析,详细的HDFS的分析,包括HDFS的数据结构及相应的运行流程。
阅读全文
摘要:人们每天都依赖搜索引擎以从 Internet 的海量数据中找到特定的内容,但您曾经想过这些搜索是如何执行的吗?一种方法是 Apache 的 Hadoop,它是一个能够对海量数据进行分布式处理的软件框架。Hadoop 的一个应用是并行索引 Internet Web 页面。Hadoop 是一个受到 Yahoo!、Google 和 IBM 等公司支持的 Apache 项目。 本文将介绍 Hadoop 框架,并展示它为什么是最重要的基于 Linux® 的分布式计算框架之一。
阅读全文
摘要:Tair是由淘宝网自主开发的Key/Value结构数据存储系统,在淘宝网有着大规模的应用。您在登录淘宝、查看商品详情页面或者在淘江湖和好友“捣浆糊”的时候,都在直接或间接地和Tair交互。
阅读全文
摘要:在众多不同的数据模型里,关系数据模型自80年代就处于统治地位,而且有不少实现,如Oracle、MySQL和MSSQL,它们也被称为关系数据库管理系统(RDBMS)。然而,最近随着关系数据库使用案例的不断增加,一些问题也暴露了出来,这主要是因为两个原因:数据建模中的一些缺陷和问题,以及在大数据量和多服务器之上进行水平伸缩的限制。
阅读全文
摘要:随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题。
阅读全文
摘要:摘要:非关系型数据库正在吸引人们的注意,因为它们可以忽略许多的规则,而这些规则正是经验丰富的数据库管理员积累的深刻教训。所有的Web应用程序设计者都梦想构建一个多机运行的应用程序,保存所有用户的所有数据,要想做到这些,有些老的规则需要避开,甚至是打破。
阅读全文
摘要:摘要:本文作者从业专业软件开发多年来,一直认为一个数据库的持久性整体规划通常都是不成套的。近几年来随着云计算开始流行,有很多声音开始质疑关系数据库的末日是否已经来临。在众多备受瞩目的替代品中,Terracotta是比较杰出的一支。
阅读全文
摘要:摘要:最近,大量新的非关系式数据库如雨后春笋般出现在云里云外。这其中所释放出的一个关键信息是:“如果想获得丰富而随需应变的可伸缩性,你需要一个非关系数据库。”如果这是真的,那么这是不是一个迹象,表明曾经强大的关系式数据库终于在它的盔甲上出现了裂缝?关系数据库的日子是不是到头了?该隐退了?在本文中,我们将检视当前这种在特定情况下摆脱关系数据库的趋势,并分析这对于关系数据库的未来意味着什么。
阅读全文
摘要:摘要:数据库厂商微软和甲骨文是在2008年开始重视云数据库。分析师们预计,在2009年数据库厂商会把更多的数据库功能增加到云中。2008年只是云计算开始步入数据库市场。
阅读全文
摘要:摘要:尽管大型关系数据库如甲骨文公司提供的产品,已经被部署在很多数据中心,但云计算需要一种不同的设置来充分发挥其潜力。
阅读全文
摘要:就像当年波士顿的爱国者为反抗英国重税的行动一样,NoSQL的支持者们从各地涌来,分享他们如何推翻缓慢而昂贵的关系数据库的暴政,怎样使用更有效和更便宜的方法来管理数据,他们开始对SQL说不!
阅读全文
摘要:作为企业架构师,我的职业习惯之一,就是不断的探求各种新的有前景的概念和思想,看其是否有潜力为我所服务的来自各行各业的企业客户带来价值。同样出于对这种理念的追求,我对NoSQL领域的关注了也有一段时间了,甚至从这个术语产生(或者错误的产生?)之前就开始了。Google首先在这方面点了一把火,发布了论文Big Table架构,对关系数据库是银弹这种普遍的信念提出了质疑,而Amazon关于Dynamo的论文则紧随其后。 过去的一年中我们见证了NoSQL强劲的势头,在这一领域有多达25种产品/解决方案发布,并且NoSQL的触角已经伸向了业界的各个角落。在此前提下,我最近考虑深入这一领域,评估一下我的客户究竟如何才能从这种NoSQL运动中获益。不仅如此,我还想探究对于企业来说,是否是到了该认真考虑采纳NoSQL的合适时机了。
阅读全文
摘要:王迪是FreeWheel核心系统的技术总监,从07年FreeWheel创立起,他全程参与到其广告核心系统的架构设计,也见证了FreeWheel从最初的的只有20台广告服务器、日均几十万的访问量、不到1G/天的日志量,发展到现在拥有60台广告服务器、日均广告请求5000万次、日志处理服务器8台、日均4小时处理日志200G这么一个规模。3年之间,流量增长20倍。他主要谈到了以下的一些经验和原则:
应用服务扩展
无状态应用服务
复制与多层次Cache
数据仓库扩展
De-normalization/Pivot
Roll up/Data Availability
Benchmarking与查询优化
Split-Loading/Sharding
运营原则
50%运行负载上限 & N+1 Data Center
监控和响应
多阶段部署
很多具体的实践方法,都是针对他们具体的商业模式以及实际工作中摸索出来的,它不一定是“最好”的,但却是最适合的,比如对系统的负载当达到50%的时候,就是一个优化和扩容的信号了;再比如,以自动化回归测试为核心,但并未使用TDD单元测试,等等等等
阅读全文
摘要:源地址:http://www.infoq.com/cn/presentations/liuhongqing-data-store演讲嘉宾及主题嘉宾简介:黄方荣WEB开发高级工程师,1998年大学毕业,2000年开始从事WEB开发工作。现就职于百度,从事于大型WEB项目(前端)技术架构。用最适合的方案解决WEB开发的各种难题!演讲主题:WEB数据交互的艺术主要演讲的内容:交互数据的格式;几种疑难数据...
阅读全文
摘要:主要演讲的内容:交互数据的格式;几种疑难数据交互的实现(跨页交互、跨域交互、即时交互等),这些解决方案一部分是已经在现有产品线上实现,还有一部分是正在实施;数据交互的意义等……;WEB发展的源动力是用户的需求,用户的需求又都通过数据的交互来实现,即什么样的交互数据决定着什么样的WEB。本次交流的内容就是从技术上来解析数据交互的实现,让每个解决方案都如同艺术品一样,简洁,优美!
阅读全文
摘要:MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子, 本论文将详细描述这个模型。
MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关心:如何分割输入数据,在大量计算机组成的 集群上的调度,集群中计算机的错误处理,管理集群中计算机之间必要的通信。采用MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的 程序员有效利用分布式系统的丰富资源。
我们的MapReduce实现运行在规模可以灵活调整的由普通机器组成的集群上:一个典型的MapReduce计算往往由几千台机器组成、处理 以TB计算的数据。程序员发现这个系统非常好用:已经实现了数以百计的MapReduce程序,在Google的集群上,每天都有1000多个 MapReduce程序在执行。
阅读全文

浙公网安备 33010602011771号