随笔分类 - 

关于云的理解和分析
摘要:什么是OSGIOSGi(Open Service Gateway Initiative)有双重含义。一方面它指OSGi Alliance组织;另一方面指该组织制定的一个基于Java语言的服务(业务)规范——OSGi服务平台(Service Platform)。OSGi Alliance是一个由Sun Microsystems、IBM、爱立信等于1999年3月成立的开放的标准化组织, 最初名为Connected Alliance。该组织及其标准原本主要目的在于使服务提供商通过住宅网关,为各种家庭智能设备提供各种服务。目前该平台逐渐成为一个为室内、交通工具、移动电话和其他环境下的所有类型的网络设备 阅读全文
posted @ 2012-07-09 08:33 skyme 阅读(3045) 评论(1) 推荐(1) 编辑
摘要:在使用HBase一定要明白HBase的适用场合,因为HBase并非适用于每种情况。首先,要确认有足够多的数据存入HBase。如 果有几亿或者几十亿条记录要存入HBase,那么HBase就是一个正确的选择;否则如果你仅有几百万条甚至更少的数据,那么HBase当然不是正确的选 择,这种情况下应当选择传统的关系型数据库,因为如果这么少的数据存入HBase,就会导致数据堆积在一两个节点上,而HBase集群内部的其他节点都处 于空闲状态。其次,要确认即便不使用传统关系型数据库提供的额外功能(比如数据库的列有强类型限制,secondary index,transaction,SQL等高级查询语言)系统也能 阅读全文
posted @ 2012-07-06 08:21 skyme 阅读(896) 评论(0) 推荐(0) 编辑
摘要:什么是SAAS软件即服务英文是Software-as-a-service的意译。国外称为SaaS,国内通常叫做软件运营服务模式,简称为软营模式。SAAS的起源软营模式(Saas)是随着互联网技术的发展和应用软件的成熟,而在21世纪开始兴起的一种完全创新的软件应用模式。它与“on-demand software”(按需软件),the application service provider(ASP,应用服务提供商),hosted software(托管软件)所具有相似的含义。它是一种通过Internet提供软件的模式,厂商将应用软件统一部署在自己的服务器上,客户可以根据自己实际需求,通过互联网向 阅读全文
posted @ 2012-06-15 13:59 skyme 阅读(13749) 评论(2) 推荐(9) 编辑
摘要:第1章引言1.1nutch和solrNutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。Solr 拥有像 web-services API 的独立的企业级搜索服务器。用 XML 通过 HTTP 向它添加文档(称为做索引),通过 HTTP 查询返回 XML 结果。1.2研究nutch 的原因可能有的朋友会有疑问,我们有google,有百度,为何还需要建立自己的搜索引擎呢?这里我列出3 点原因:透明度:nutch 是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为什么搜索出来的排序结果是如何算 阅读全文
posted @ 2012-06-13 17:36 skyme 阅读(10328) 评论(4) 推荐(9) 编辑
摘要:第1章引言1.1编写目的介绍apache cassandra。1.2非关系型数据库—Cassandra1.2.1简介Cassandra是一个混合型的非关系的数据库,类似于Google的BigTable。其主要功能比Dynomite(分布式的Key-Value存储系统)更丰富,但支持度却不如文档存储MongoDB(介于关系数据库和非关系数据库之间的开源产品,是非关系数据库当中功能最丰富,最像关系数据库的。支持的数据结构非 常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型。)Cassandra最初由Facebook开发,后转变成了开源项目。它是 一个网络社交云计算方面理想的数 阅读全文
posted @ 2012-06-07 17:33 skyme 阅读(2558) 评论(0) 推荐(1) 编辑
摘要:搭建hbase的时候遇到这个问题org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed setting up proxy interface org.apache.hadoop.hbase.ipc.HRegionInterface to localhost/127.0.0.1:33446 after attempts=1一直很纠结,不知道哪里出了问题,后来查了半天,原来是/etc/hosts里边配置出的问题127.0.1.1 后边是对应的主机名将127.0.1.1改为127.0.0.1,问题解决,晕! 阅读全文
posted @ 2012-06-06 13:29 skyme 阅读(1043) 评论(0) 推荐(0) 编辑
摘要:当我把hadoop、hbase安装配置(具体参考这里)好了之后,启动hbase的shell交互模式,输入命令却出现了下面这样的错误:ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times这是为什么呢,Master为什么没有启动起来呢?查看logs目录下的Master日志,发现有以下信息:2012-02-01 14:41:52,867 FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.o 阅读全文
posted @ 2012-06-05 16:30 skyme 阅读(8339) 评论(0) 推荐(2) 编辑
摘要:1.1 云服务环境 Eucalyptus1.1.1 介绍Elastic Utility Computing Architecture for Linking Your Programs To Useful Systems (Eucalyptus) 是一种开源的软件基础结构,用来通过计算集群或工作站群实现弹性的、实用的云计算。它最初是美国加利福尼亚大学 Santa Barbara 计算机科学学院的一个研究项目,现在已经商业化,发展成为了 Eucalyptus Systems Inc。不过,Eucalyptus 仍然按开源项目那样维护和开发。Eucalyptus Systems 还在基于开源的 E 阅读全文
posted @ 2012-06-05 09:59 skyme 阅读(19564) 评论(7) 推荐(5) 编辑
摘要:第1章 引言1.1 编写目的介绍pig,一个不得不说的hadoop的扩展。1.2 什么是pigPig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。1.3 pig的特点1、专注于于大量数据集分析(ad-hoc analysis , ad-hoc 代表:a solution that has been custom designed for a specific problem ); 2、运行在集群的 阅读全文
posted @ 2012-06-04 16:12 skyme 阅读(24728) 评论(0) 推荐(8) 编辑
摘要:业界比较认可的几个分类:SAAS、PAAS、IAAS1、SAAS(软件即服务)就是提供一种软件池,池中包括这样那样的内容,就像水电一样可以自由取送,然后按量收费,这是saas的一个宗旨。saas具有的几个特点:1)按需使用,客户根据自身的需求来决定使用多少服务以及服务的时间长短。现在很多公司都提出了这种模式,以租用的方式来销售软件,云邮件,云呼叫等,客户不必关心最终的服务是由什么开发,无论是java,.net,php,只需知道交纳费用就可以享受相应的服务,这就是saas的一个最大的特点。2)能够被快速部署,可以是零部署,也可以是自动部署和升级这个其实很符合软件发展的规律,与现在出现的敏捷开发, 阅读全文
posted @ 2012-06-01 14:05 skyme 阅读(2333) 评论(0) 推荐(0) 编辑
摘要:第1章 引言1.1 编写目的对关于hadoop的文档及资料进行进一步的整理。1.2 相关网站 毋庸置疑 http://hadoop.apache.org/ 国内 http://www.hadoopor.com/ 专门研究hadoop的,《hadoop开发者》由该站创办,已发4期 中国云计算论坛hadoop专区; http://bbs.chinacloud.cn/showforum-16.aspx 中科院计算所办的hadoop:http://www.hadooper.cn/1.3 资料及研究成果 http://code.google.com/p/mycloub/ 我会搜集更多更好的资料,方便交流 阅读全文
posted @ 2012-06-01 09:49 skyme 阅读(23161) 评论(1) 推荐(2) 编辑
摘要:java.lang.IllegalArgumentException: Wrong FS: hdfs://localhost:54310/user/Hadoop/b, expected: file:/// at org.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:410) at org.apache.hadoop.fs.RawLocalFileSystem.pathToFile(RawLocalFileSystem.java:56) at org.apache.hadoop.fs.RawLocalFileSyst... 阅读全文
posted @ 2012-05-31 16:09 skyme 阅读(5360) 评论(3) 推荐(0) 编辑
摘要:前提和设计目标硬件错误硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS最核心的架构目标。流式数据访问运行在HDFS上的应用和普通的应用不同,需要流式访问它们的数据集。HDFS的设计中更多的考虑到了数据批处理,而不是用户交互处理。比之数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。POSIX标准设置的很多硬性约束对HDFS应用系统不是必需的。为了提高数据的吞吐量,在一些关键方面对PO 阅读全文
posted @ 2011-10-27 15:59 skyme 阅读(41366) 评论(1) 推荐(1) 编辑
摘要:hadoop框架Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成。其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上。1,NameNodeNameNode是HDFS的守护程序,负责记录文件是如何分割成数据块的,以及这些数据块被存储到哪些数据节点上。它的功能是对内存及I/O进行集中管理。2,DataNode集群中每个从服务器都运行一个Data 阅读全文
posted @ 2011-10-26 14:45 skyme 阅读(135605) 评论(6) 推荐(16) 编辑
摘要:Hadoop:Google云计算的开源实现Hadoop是Apache开源组织的一个分布式计算机框架,可以在大量廉价的硬件设备组成的集群上运行应用程序,为应用程序提供一组稳定可靠的接口,旨在构建一个具有高可靠性和良好扩展性的分布式系统。Hadoop的核心是HDFS,MapReduce和HBase,它们分别对应Google的云计算GFS,MapReduce和Bigtable。Hadoop主要由以下几个子项目组成:1)Hadoop Common:原来的Hadoop Core,这是整个Hadoop项目的核心2)Avro:Hadoop的RPC方案3)Vhukwa:一个用来管理大型分布式系统的数据采集系统 阅读全文
posted @ 2011-10-19 12:07 skyme 阅读(750) 评论(0) 推荐(0) 编辑
摘要:Amazon云计算AWS 亚马逊的云是业界比较领先的云,主要包括弹性计算云EC2,简单存储服务S3,简单数据库服务Simple DB,简单队列服务SQS,弹性MapReduce服务,内容推送服务CloudFront,电子商务服务DevPay和FPS等。基础存储架构:Dynamo Dynamo以简单的键值存储,不支持复杂的查询架构的主要技术 1,数据均衡分布的问题1)一致性哈希算法 (1)平衡性 (2)单调性 (3)分散性 (4)负载2)采用的改进算法,引入虚拟结点的概念3)数据备份2,数据冲突问题主要考虑三个因素:可靠性,可用性和一致性3,容错机制1)临时故障容错机制2)永久性故障处理机制4, 阅读全文
posted @ 2011-10-18 13:43 skyme 阅读(1155) 评论(0) 推荐(0) 编辑
摘要:google云计算原理与应用google云计算服务包括:google文件系统GFS,分布式计算编程模形MapReduce,分布式锁服务Chubby,分布式结构化数据表Bigtable,分布式存储系统Megastore以及分布式监控系统Dapper等。GFS提供了海量数据的存储和访问能力。GFS系统架构:分为三类角色,client(客户端),Master(主服务器)和Chunk Server(数据块服务器)1,使用的是中心服务器模块,可以任意添加chunk server.2,不实现缓存,这是从必要性和可行性两方面考虑。必要性:客户端大部分是流式读写,不存在大量的重复读写。可行性:如何维护缓存与实 阅读全文
posted @ 2011-10-17 18:22 skyme 阅读(2354) 评论(1) 推荐(1) 编辑
摘要:云计算的概念云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。云的核心理念就是资源池。为什么叫云?因为云一般都比较大,规模可以动态伸缩,而且边界是模糊的,云在空中飘忽不定,无法确定它的具体位置,但是它确实存在于某处,所以叫作云。形象的比喻单台发电机转向电厂发电。云的特点(1)超大规模(2)虚拟化,云可以支持任何用户任何终端。(3)高可靠性,多个副本容错(4)通用性,一片云可以支撑不同的应用(5)高可伸缩性(6)按需服务,定义好的资源池所有资源在池中取(7)极其廉价,可以使用低成本的节点构成云,从而组成数据中心管理的成本大大降低云 阅读全文
posted @ 2011-10-14 12:07 skyme 阅读(1520) 评论(0) 推荐(0) 编辑
摘要:云计算的体系结构由5部分组成,分别为应用层,平台层,资源层,用户访问层和管理层,云计算的本质是通过网络提供服务,所以其体系结构以服务为核心。如下图:1,资源层资源池层是指基础架构屋面的云计算服务,这些服务可以提供虚拟化的资源,从而隐藏物理资源的复杂性。物理资源指的是物理设备,如服务器等。服务器服务指的是操作系统的环境,如linux集群等。网络服务指的是提供的网络处理能力,如防火墙,VLAN,负载等。存储服务为用户提供存储能力。2,平台层平台层为用户提供对资源层服务的封装,使用户可以构建自己的应用。数据库服务提供可扩展的数据库处理的能力。中间件服务为用户提供可扩展的消息中间件或事务处理中间件等服 阅读全文
posted @ 2011-07-22 12:38 skyme 阅读(40847) 评论(0) 推荐(7) 编辑
摘要:"一"云计算是一种颠覆性的交付模式,一体化的共享服务平台。从技术的角度来讲,是将企业所有的服务器、存储等基础设施以及网络整合到统一的云平台上。在"云的世界"里,将技术和业务结合起来交付给用户使用。企业的运营管理、决策分析都将基于云平台展开,人们将会过起一种"云上的日子"。他是一个系统的概念、总体的概念、业务与技术融合的一体化概念,这一点对认识云很重要。"二"是指云由云计算平台和云服务应用两个层面组成。企业可以将基础设施包括传统的服务器、操作系统、存储运维等都统一部署在一个平台上,这是一个技术的层面,企业可以不必过多 阅读全文
posted @ 2011-07-19 15:51 skyme 阅读(451) 评论(0) 推荐(0) 编辑