随笔分类 -  大数据面试准备

摘要:转自:http://blog.csdn.net/colorant/article/details/8256039更多云计算相关项目快速理解文档http://blog.csdn.net/colorant/article/details/8255910==是什么==目标Scope(解决什么问题)分布式实... 阅读全文
posted @ 2016-01-12 15:51 五三中 阅读(744) 评论(0) 推荐(0)
摘要:转自:http://blog.csdn.net/colorant/article/details/12081909==是什么==简单的说,Kafka是由Linkedin开发的一个分布式的消息队列系统(Message Queue)目标Scope(解决什么问题)kafka开发的主要初衷目标是构建一个用来... 阅读全文
posted @ 2016-01-12 15:47 五三中 阅读(2123) 评论(0) 推荐(0)
摘要:转自:http://my.oschina.net/frankwu/blog/303745Kafka 之 中级:http://my.oschina.net/frankwu/blog/305010摘要最近研究采集层,对Kafka做了一个研究。分为入门,中级,高级步步进阶。本篇主要介绍基本概念,适用场景。... 阅读全文
posted @ 2016-01-12 15:41 五三中 阅读(468) 评论(0) 推荐(0)
摘要:转自:http://blog.csdn.net/qqqq724/article/details/43228863背景介绍Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性... 阅读全文
posted @ 2016-01-12 15:31 五三中 阅读(4450) 评论(0) 推荐(0)
摘要:转自:http://blog.csdn.net/chen_jp/article/details/7983076Hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法和计算能力调度算法先来先服务(FIFO)FIFO比较简单,hadoop中只有一个作业队列,被提交的作业按照先后顺序在作业队列... 阅读全文
posted @ 2016-01-12 15:16 五三中 阅读(957) 评论(0) 推荐(0)
摘要:转自:http://blog.csdn.net/yangbutao/article/details/8394149了解了布隆过滤器作用于HFile之上以及对HFile有了更深层次了解。另有:http://my.oschina.net/zhengyang841117/blog/188723一、HFil... 阅读全文
posted @ 2016-01-11 23:38 五三中 阅读(2163) 评论(0) 推荐(0)
摘要:转自 :http://blog.itpub.net/28912557/viewspace-1127423/Map-Reduce处理过程(分析气象数据的map-reduce过程)1,调用标准的input类(默认TextInputFormat),将输入数据转化成标准的样式,成为map的输入。2,map过... 阅读全文
posted @ 2016-01-11 02:26 五三中 阅读(288) 评论(0) 推荐(0)
摘要:转自:http://blog.csdn.net/lucky_greenegg/article/details/47070565由于项目需要,将原来的系统升级需要用到Hbase技术,使用了之后发现,确实很不错。那么问题来了,为什么在这里要用Hbase,而不是以前的关系型数据库Oracle,他们各自有什... 阅读全文
posted @ 2016-01-11 02:21 五三中 阅读(5303) 评论(0) 推荐(0)
摘要:转自:http://blog.itpub.net/28912557/viewspace-1119865/什么情况下使用Hbase?1,成熟的数据分析主题,查询模式已经确定并且不易轻易改变。(主要还是查询模式要确定,否则,还是选用关系型数据库吧)2,传统关系型数据库已经无法承受负荷,告诉插入,大量读取... 阅读全文
posted @ 2016-01-11 02:20 五三中 阅读(886) 评论(0) 推荐(0)
摘要:转自:http://www.aboutyun.com/thread-8957-1-2.html问题导读:1.HBase查询与写入哪个更好一些?2.HBase面对复杂操作能否实现?3.Region服务器由哪2部分构成?扩展:4.HBase能否实现join操作?5.二级索引的作用是什么?前言如今在软件开... 阅读全文
posted @ 2016-01-10 21:38 五三中 阅读(1007) 评论(0) 推荐(0)
摘要:转自:http://www.aboutyun.com/thread-9216-1-1.html使用Storm处理事务型实时计算需求时的几处难点:http://blog.sina.com.cn/s/blog_6ff05a2c0101ficp.html最近搞日志处理,注意是日志处理,如果用流计算处理一些... 阅读全文
posted @ 2016-01-10 21:25 五三中 阅读(2133) 评论(0) 推荐(0)
摘要:转自:http://www.aboutyun.com/thread-10886-1-1.html附HBase 0.94之后Split策略:http://www.aboutyun.com/thread-11211-1-1.html1.Client写入需要哪些过程?2.Hbase是如何读取数据的?Cli... 阅读全文
posted @ 2016-01-10 15:28 五三中 阅读(8165) 评论(0) 推荐(0)
摘要:转自:http://www.aboutyun.com/thread-7297-1-1.htmlFacebook放弃Cassandra之后,对HBase 0.89版本进行了大量稳定性优化,使它真正成为一个工业级可靠的结构化数据存储检索系统。Facebook的Puma、Titan、ODS时间序列监控系统... 阅读全文
posted @ 2016-01-10 15:24 五三中 阅读(1177) 评论(0) 推荐(0)
摘要:转自:http://www.cnblogs.com/yanghuahui/p/3483754.html讲LSM树之前,需要提下三种基本的存储引擎,这样才能清楚LSM树的由来:哈希存储引擎 是哈希表的持久化实现,支持增、删、改以及随机读取操作,但不支持顺序扫描,对应的存储系统为key-value存储系... 阅读全文
posted @ 2016-01-10 15:16 五三中 阅读(775) 评论(0) 推荐(0)
摘要:转自:http://www.aboutyun.com/thread-7119-1-1.html对于任何系统的数据设计,我们都想提高性能,达到资源最大化利用,那么对于hbase我们产生如下问题:1.hbase rowkey设计如何才能提高性能?2.hbase rowkey如何设计才能散列到不同的节点上... 阅读全文
posted @ 2016-01-10 14:49 五三中 阅读(26191) 评论(1) 推荐(1)
摘要:转自:http://www.aboutyun.com/thread-6867-1-1.html阅读本文章可以带着下面问题:1.与传统数据库对比,找出他们的区别2.熟练写出增删改查(面试必备)创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Cr... 阅读全文
posted @ 2016-01-09 20:50 五三中 阅读(353) 评论(0) 推荐(0)
摘要:转自:Hive – Distinct 的实现:http://ju.outofmemory.cn/entry/784Hive – Group By 的实现:http://ju.outofmemory.cn/entry/785Hive – JOIN实现过程:http://ju.outofmemory.c... 阅读全文
posted @ 2016-01-09 13:26 五三中 阅读(15160) 评论(0) 推荐(0)
摘要:转自:http://www.csdn.net/article/2015-01-13/2823530摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针... 阅读全文
posted @ 2016-01-09 01:24 五三中 阅读(2768) 评论(0) 推荐(0)
摘要:转自:http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html我最近研究了hive的相关技术,有点心得,这里和大家分享下。 首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是... 阅读全文
posted @ 2016-01-08 01:45 五三中 阅读(1256) 评论(0) 推荐(0)
摘要:转自http://superlxw1234.iteye.com/blog/1582880一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,... 阅读全文
posted @ 2016-01-08 01:43 五三中 阅读(343) 评论(0) 推荐(0)