随笔 - 5,  文章 - 0,  评论 - 1,  阅读 - 1831
一、概述手机图片或者像淘宝这样的网站中的产品图片特点:(1)、大量手机用户同时在线,执行上传、下载、read等图片操作(2)、文件数量较大,大小一般为几K到几十K左右HDFS存储特点:(1) 流式读取方式,主要是针对一次写入,多次读出的使用模式。写入的过程使用的是append的方式。(2) 设计目的是为了存储超大文件,主要是针对几百MB,GB,甚至TB的文件(3) 该分布式系统构建在普通PC机组成的集群上,大大降低了构建成本,并屏蔽了系统故障,使得用户可以专注于自身的操作运算。HDFS与小图片存储的共通点和相悖之处:(1) 都建立在分布式存储的基本理念之上(2) 均要降低成本,利用普通的PC机
posted @ 2012-05-31 16:46 booming1236 阅读(565) 评论(1) 推荐(0)
摘要: Hadoop配置文件:1.fs.default.name默认值是本地目录:file:///,当使用hdfs时,默认端口为8020。\2.hadoop.temp.dir默认值是:/tmp/hadoop-${user.name}3.dfs.name.dir,dfs.data.dir默认值是${hadoop.tmp.dir}/dfs/namenamenode 和datanode存储永久性元数据的目录列表。namenode在列表上的各个目录中均存放相同的元数据文件(?)datanode各个数据块分别存放于某一个目录中。4.fs.checkpoint.dir 阅读全文
posted @ 2012-05-31 16:42 booming1236 阅读(182) 评论(0) 推荐(0)
摘要: HTable是HBase提供的一个主要客户端接口, 通过它可以实现与HBase集群连接, 进而实现CRUD等一系列功能。 1. HTable如何实现与HBase集群的连接?HTable是如何知道HBase集群中的HMaser和HRegionServer, 答案是通过Zookeeper, zookeeper是一个分布式协调系统, HMaser,HRegionServer在启动后会自动在zookeeper中注册自己的地址。 HTable实例构造后会查找zookeeper配置, 与zookeeper取的连接, 进而获取HMaser,HRegionServer信息加载zookeeper配置流程如下:. 阅读全文
posted @ 2012-05-25 09:54 booming1236 阅读(479) 评论(0) 推荐(0)
摘要: bulkload的方式导入数据是hbase的一项相当好的数据导入工具,特别适合做为新系统的历史数据导入工具!hbase本身也封装了相关的类importtsv,官网有简单的介绍http://hbase.apache.org/bulk-loads.html。 这里我要说明的是如何去快速定制一些适合自己应用的bulkload。 我们一般需要运行的数据有几种格式,txt的用的最普遍,采用lzo压缩过的txt更专业一些,这里举例lzo格式的源文件。以下代码生成hfile[java]view plaincopypackagecom.sina.hbase.mr;importjava.io.IOEx... 阅读全文
posted @ 2012-05-16 15:02 booming1236 阅读(437) 评论(0) 推荐(0)
摘要: 二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性,RDBMS早已支持,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index,ITHbase, Facebook方案和官方Coprocessor的介绍。理论目标在HBase中实现二级索引与索引Join需要考虑三个目标:1,高性能的范围检索。2,数据的低冗余(存储所占的数据量)。3,数据的一致性。性能与数据冗余,一致性是相互制约的关系。如果你实现了高性能地范围检索,必然需要靠冗余索 阅读全文
posted @ 2012-05-16 14:57 booming1236 阅读(168) 评论(0) 推荐(0)
点击右上角即可分享
微信分享提示