随笔分类 - [89]Big Data
-
【Hadoop】HDFS的运行原理
摘要:【Hadoop】HDFS的运行原理简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ①保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ②运行在廉价的机器上。 ③适合大数据的处理。多大?多小?HDFS默认会将文件分割成block,64M为1个block。然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中。如果小文件太多,那内存的负担会很重。如上图所示,HDF 阅读全文
-
hbase
摘要:hbasehbaseHBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop 项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。hadoop家族hadoop家族成员:Hadoop CommonHadoop体 阅读全文
-
Hadoop企业级应用
摘要:Hadoop专业解决方案之构建Hadoop企业级应用一、大数据的挑战 大数据面对挑战是你必须重新思考构建数据分析应用的方式。传统方式的应用构建是基于数据存储在不支持大数据处理的基础之上。这主要是因为一下原因: 1.传统应用的基础设施是基于传统数据库访问模式设计的,它不支持Hadoop; 2.数据存储在Hadoop之上,实时访问集群中部分数据是可行的; 3.Hadoop大数据存储能力使得你可以存储数据集的多个版本,来挑战传统覆写数据方式。二、大数据应用系统架构三、架构说明1.数据源层:DataSource数据的收集可以基于Flume或者Sqoop进行;2.数据仓库层:需要区分结构化数据和... 阅读全文
-
YARN
摘要:YARN介绍Apache Hadoop YARN作为hadoop的子项目加入到Hadoop Common (core libraries), Hadoop HDFS (storage) and Hadoop MapReduce (the MapReduce implementation) ,它也是apache的顶级工程。在Hadoop 2.0中,各个客户端会向运行在YARN上的MapReduce v2框架提交种种MapReduce应用。而在Hadoop 1.0中,各个客户端则向MapReduce v1框架提交MapRecude应用。这两类API都引用开发者可用的MapRecude框架来创建Ma 阅读全文
-
Couchbase集群和Redis集群解析
摘要:Couchbase集群和Redis集群解析首先,关于一些数据库或者是缓存的集群有两种结构,一种是Cluster;一种是master-salve.关于缓存系统一般使用的就是Redis,Redis是开源的,它可以单机使用,也可以做集群使用。Redis集群是一个分布式、容错、的Redis实现,集群可以使用的功能是普通单机Redis所能使用的功能的一个子集Redis集群中不存在中心节点或者代理节点,集群的其中一个主要的目标是达到线性可扩展性集群的容错功能是通过使用主节点和从节点来实现的(master-slave)。Redis集群中的节点有3大责任:(1) 持有键值对数据。(2) 记录集群的状态,包括键 阅读全文
-
跟我一起云计算(1)——storm
摘要:跟我一起云计算(1)——storm概述最近要做一个实时分析的项目,所以需要深入一下storm。为什么storm综合下来,有以下几点:1. 生逢其时MapReduce 计算模型打开了分布式计算的另一扇大门,极大的降低了实现分布式计算的门槛。有了MapReduce架构的支持,开发者只需要把注意力集中在如何使用 MapReduce的语义来解决具体的业务逻辑,而不用头疼诸如容错,可扩展性,可靠性等一系列硬骨头。一时间,人们拿着MapReduce这把榔头去敲 各种各样的钉子,自然而然的也试图用MapReduce计算模型来解决流处理想要解决的问题。各种失败的尝试之后,人们意识到,改良MapReduce并 阅读全文
-
大数据时代,我们为什么使用hadoop
摘要:大数据时代,我们为什么使用hadoop我们先来看看大数据时代,什么叫大数据,“大”,说的并不仅是数据的“多”!不能用数据到了多少TB ,多少PB来说。对于大数据,可以用四个词来表示:大量,多样,实时,不确定。也就是数据的量庞大,数据的种类繁杂多样话,数据的变化飞快,数据的真假存疑。大量:这个大家都知道,想百度,淘宝,腾讯,Facebook,Twitter等网站上的一些信息,这肯定算是大数据了,都要存储下来。多样:数据的多样性,是说数据可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等。实时:大数据需要快速的,实时的进行处理。如果说对时间要求低,那弄几个机器,对小数据进行 阅读全文
-
Redis集群方案
摘要:Redis集群方案前段时间搞了搞Redis集群,想用做推荐系统的线上存储,说来挺有趣,这边基础架构不太完善,因此需要我们做推荐系统的自己来搭这个存储环境,就自己折腾了折腾。公司所给机器的单机性能其实挺给力,已经可以满足目前的业务需求,想做redis集群主要有以下几点考虑: 1、扩展性,scale-out,以后数据量变得很大之后,不至于推到重来,redis虽然可以开启虚拟内存功能,单机也能提供超过物理内存上限的容量,但频繁在内存和硬盘间swap页会大大降低其性能,有点儿违背redis的设计初衷。 2、redis是一个单线程io复用的结构,无法有效利用服务器的多核结构,如果能在一台多核机器起多个r 阅读全文
-
Hadoop处理大量小文件的问题和解决方法
摘要:Hadoop处理大量小文件的问题和解决方法小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,没一个object占用150 bytes的内存空间。所以,如果有10million个文件,没一个文件对应一个block,那么就将要消耗namenode 3G的内存来保存这些block的信息。如果规模再大一些,那么将会 阅读全文
-
Hadoop能力测试图谱
摘要:一张图测试你的Hadoop能力-Hadoop能力测试图谱1.引言 看到一张图,关于Hadoop技术框架的图,基本上涉及到Hadoop当前应用的主要领域,感觉可以作为测试Hadoop开发人员当前能力和水平的比较好的一个工具,特此分享给大家。如果你能够明白说出每一个技术框架的功能、应用场景和设计架构,那么恭喜你,已经正式步入Hadoop应用开发的世界了。2.Hadoop菜鸟入门测试3.评分标准 第一档 菜鸟初级(门外汉) 1-7 不及格 第二档 菜鸟8+X段,每答对一个,加一段 8-10 及格 第三档 见习Hadoop工程师 11-13 第四档 Hadoop工程师 144.高级测试关于标... 阅读全文
-
LevelDb系列之简介
摘要:LevelDb系列之简介 说起LevelDb也许您不清楚,但是如果作为IT工程师,不知道下面两位大神级别的工程师,那您的领导估计会Hold不住了:JeffDean和SanjayGhemawat。这两位是Google公司重量级的工程师,为数甚少的GoogleFellow之二。 JeffDean其人:http://research.google.com/people/jeff/index.html,Google大规模分布式平台Bigtable和MapReduce主要设计和实现者。 SanjayGhemawat其人:http://research.google.com/people/sanja... 阅读全文
-
Hortworks Hadoop生态圈简介
摘要:Hortworks Hadoop生态圈简介Hortworks 作为Apache Hadoop2.0社区的开拓者,构建了一套自己的Hadoop生态圈,包括存储数据的HDFS,资源管理框架YARN,计算模型MAPREDUCE、TEZ等,服务于数据平台的PIG、HIVE&HCATALOG、HBASE,HDFS存储的数据通过FLUME和SQOOP导入导出,集群监控AMBARI、数据生命周期管理FALCON、作业调度系统OOZIE。本文简要介绍了各个系统的概念。另外大多系统都通过Apache开源,读者可以自行下载试用。Hortworks Hadoop生态圈架构如图1所示。图1 Hortworks 阅读全文
-
hbase安装
摘要:hbase安装HBase的安装本篇介绍两种HBase的安装方式:本地安装方式和伪分布式安装方式。安装的前提条件是已经成功安装了hadoop,而且hadoop的版本要和hbase的版本相匹配。我将要安装的hbase是hbase-0.94.11版本,需要的hadoop是hadoop-1.2.1版本。hbase下载地址:http://mirror.bit.edu.cn/apache/hbase/hbase-0.94.11/将下载的hbase-0.94.11解压到相应的目录,如/usr/hbase-0.94.11将hbase-0.90.4重命名为hbasemv hbase-0.94.11 hbase首 阅读全文
-
大数据之HBase
摘要:大数据之HBase数据插入优化之多线程并行插入实测案例一、引言: 上篇文章提起关于HBase插入性能优化设计到的五个参数,从参数配置的角度给大家提供了一个性能测试环境的实验代码。根据网友的反馈,基于单线程的模式实现的数据插入毕竟有限。通过个人实测,在我的虚拟机环境下,单线程插入数据的值约为4w/s。集群指标是:CPU双核1.83,虚拟机512M内存,集群部署单点模式。本文给出了基于多线程并发模式的,测试代码案例和实测结果,希望能给大家一些启示:二、源程序: 1 import org.apache.hadoop.conf.Configuration; 2 import org.apache... 阅读全文