随笔分类 - 大数据面试准备
摘要:转自:http://blog.csdn.net/colorant/article/details/8256039更多云计算相关项目快速理解文档http://blog.csdn.net/colorant/article/details/8255910==是什么==目标Scope(解决什么问题)分布式实...
阅读全文
摘要:转自:http://blog.csdn.net/colorant/article/details/12081909==是什么==简单的说,Kafka是由Linkedin开发的一个分布式的消息队列系统(Message Queue)目标Scope(解决什么问题)kafka开发的主要初衷目标是构建一个用来...
阅读全文
摘要:转自:http://my.oschina.net/frankwu/blog/303745Kafka 之 中级:http://my.oschina.net/frankwu/blog/305010摘要最近研究采集层,对Kafka做了一个研究。分为入门,中级,高级步步进阶。本篇主要介绍基本概念,适用场景。...
阅读全文
摘要:转自:http://blog.csdn.net/qqqq724/article/details/43228863背景介绍Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性...
阅读全文
摘要:转自:http://blog.csdn.net/chen_jp/article/details/7983076Hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法和计算能力调度算法先来先服务(FIFO)FIFO比较简单,hadoop中只有一个作业队列,被提交的作业按照先后顺序在作业队列...
阅读全文
摘要:转自:http://blog.csdn.net/yangbutao/article/details/8394149了解了布隆过滤器作用于HFile之上以及对HFile有了更深层次了解。另有:http://my.oschina.net/zhengyang841117/blog/188723一、HFil...
阅读全文
摘要:转自 :http://blog.itpub.net/28912557/viewspace-1127423/Map-Reduce处理过程(分析气象数据的map-reduce过程)1,调用标准的input类(默认TextInputFormat),将输入数据转化成标准的样式,成为map的输入。2,map过...
阅读全文
摘要:转自:http://blog.csdn.net/lucky_greenegg/article/details/47070565由于项目需要,将原来的系统升级需要用到Hbase技术,使用了之后发现,确实很不错。那么问题来了,为什么在这里要用Hbase,而不是以前的关系型数据库Oracle,他们各自有什...
阅读全文
摘要:转自:http://blog.itpub.net/28912557/viewspace-1119865/什么情况下使用Hbase?1,成熟的数据分析主题,查询模式已经确定并且不易轻易改变。(主要还是查询模式要确定,否则,还是选用关系型数据库吧)2,传统关系型数据库已经无法承受负荷,告诉插入,大量读取...
阅读全文
摘要:转自:http://www.aboutyun.com/thread-8957-1-2.html问题导读:1.HBase查询与写入哪个更好一些?2.HBase面对复杂操作能否实现?3.Region服务器由哪2部分构成?扩展:4.HBase能否实现join操作?5.二级索引的作用是什么?前言如今在软件开...
阅读全文
摘要:转自:http://www.aboutyun.com/thread-9216-1-1.html使用Storm处理事务型实时计算需求时的几处难点:http://blog.sina.com.cn/s/blog_6ff05a2c0101ficp.html最近搞日志处理,注意是日志处理,如果用流计算处理一些...
阅读全文
摘要:转自:http://www.aboutyun.com/thread-10886-1-1.html附HBase 0.94之后Split策略:http://www.aboutyun.com/thread-11211-1-1.html1.Client写入需要哪些过程?2.Hbase是如何读取数据的?Cli...
阅读全文
摘要:转自:http://www.aboutyun.com/thread-7297-1-1.htmlFacebook放弃Cassandra之后,对HBase 0.89版本进行了大量稳定性优化,使它真正成为一个工业级可靠的结构化数据存储检索系统。Facebook的Puma、Titan、ODS时间序列监控系统...
阅读全文
摘要:转自:http://www.cnblogs.com/yanghuahui/p/3483754.html讲LSM树之前,需要提下三种基本的存储引擎,这样才能清楚LSM树的由来:哈希存储引擎 是哈希表的持久化实现,支持增、删、改以及随机读取操作,但不支持顺序扫描,对应的存储系统为key-value存储系...
阅读全文
摘要:转自:http://www.aboutyun.com/thread-7119-1-1.html对于任何系统的数据设计,我们都想提高性能,达到资源最大化利用,那么对于hbase我们产生如下问题:1.hbase rowkey设计如何才能提高性能?2.hbase rowkey如何设计才能散列到不同的节点上...
阅读全文
摘要:转自:http://www.aboutyun.com/thread-6867-1-1.html阅读本文章可以带着下面问题:1.与传统数据库对比,找出他们的区别2.熟练写出增删改查(面试必备)创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Cr...
阅读全文
摘要:转自:Hive – Distinct 的实现:http://ju.outofmemory.cn/entry/784Hive – Group By 的实现:http://ju.outofmemory.cn/entry/785Hive – JOIN实现过程:http://ju.outofmemory.c...
阅读全文
摘要:转自:http://www.csdn.net/article/2015-01-13/2823530摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针...
阅读全文
摘要:转自:http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html我最近研究了hive的相关技术,有点心得,这里和大家分享下。 首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是...
阅读全文
摘要:转自http://superlxw1234.iteye.com/blog/1582880一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,...
阅读全文

浙公网安备 33010602011771号