大数据面试准备 - 随笔分类(第3页) - 五三中

Storm快速理解

摘要：转自：http://blog.csdn.net/colorant/article/details/8256039更多云计算相关项目快速理解文档http://blog.csdn.net/colorant/article/details/8255910==是什么==目标Scope（解决什么问题）分布式实... 阅读全文

posted @ 2016-01-12 15:51 五三中阅读(746) 评论(0) 推荐(0)

快速理解Kafka分布式消息队列框架

摘要：转自：http://blog.csdn.net/colorant/article/details/12081909==是什么==简单的说，Kafka是由Linkedin开发的一个分布式的消息队列系统(Message Queue)目标Scope（解决什么问题）kafka开发的主要初衷目标是构建一个用来... 阅读全文

posted @ 2016-01-12 15:47 五三中阅读(2130) 评论(0) 推荐(0)

Kafka 之入门

摘要：转自：http://my.oschina.net/frankwu/blog/303745Kafka 之中级：http://my.oschina.net/frankwu/blog/305010摘要最近研究采集层，对Kafka做了一个研究。分为入门，中级，高级步步进阶。本篇主要介绍基本概念，适用场景。... 阅读全文

posted @ 2016-01-12 15:41 五三中阅读(471) 评论(0) 推荐(0)

Kafka深度解析

摘要：转自：http://blog.csdn.net/qqqq724/article/details/43228863背景介绍Kafka简介 Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性... 阅读全文

posted @ 2016-01-12 15:31 五三中阅读(4456) 评论(0) 推荐(0)

Hadoop集群作业调度算法

摘要：转自：http://blog.csdn.net/chen_jp/article/details/7983076Hadoop集群中有三种作业调度算法，分别为FIFO，公平调度算法和计算能力调度算法先来先服务（FIFO）FIFO比较简单，hadoop中只有一个作业队列，被提交的作业按照先后顺序在作业队列... 阅读全文

posted @ 2016-01-12 15:16 五三中阅读(960) 评论(0) 推荐(0)

关于HFile的存储结构梳理以及快速定位rowkey

摘要：转自：http://blog.csdn.net/yangbutao/article/details/8394149了解了布隆过滤器作用于HFile之上以及对HFile有了更深层次了解。另有：http://my.oschina.net/zhengyang841117/blog/188723一、HFil... 阅读全文

posted @ 2016-01-11 23:38 五三中阅读(2177) 评论(0) 推荐(0)

MapReduce初探

摘要：转自：http://blog.itpub.net/28912557/viewspace-1127423/Map-Reduce处理过程（分析气象数据的map-reduce过程）1，调用标准的input类（默认TextInputFormat），将输入数据转化成标准的样式，成为map的输入。2，map过... 阅读全文

posted @ 2016-01-11 02:26 五三中阅读(291) 评论(0) 推荐(0)

Hbase和Oracle的对比

摘要：转自：http://blog.csdn.net/lucky_greenegg/article/details/47070565由于项目需要，将原来的系统升级需要用到Hbase技术，使用了之后发现，确实很不错。那么问题来了，为什么在这里要用Hbase，而不是以前的关系型数据库Oracle，他们各自有什... 阅读全文

posted @ 2016-01-11 02:21 五三中阅读(5313) 评论(0) 推荐(0)

Hbase建模

摘要：转自：http://blog.itpub.net/28912557/viewspace-1119865/什么情况下使用Hbase？1，成熟的数据分析主题，查询模式已经确定并且不易轻易改变。（主要还是查询模式要确定，否则，还是选用关系型数据库吧）2，传统关系型数据库已经无法承受负荷，告诉插入，大量读取... 阅读全文

posted @ 2016-01-11 02:20 五三中阅读(889) 评论(0) 推荐(0)

HBase系统入门--整体介绍

摘要：转自：http://www.aboutyun.com/thread-8957-1-2.html问题导读:1.HBase查询与写入哪个更好一些？2.HBase面对复杂操作能否实现？3.Region服务器由哪2部分构成？扩展：4.HBase能否实现join操作？5.二级索引的作用是什么？前言如今在软件开... 阅读全文

posted @ 2016-01-10 21:38 五三中阅读(1011) 评论(0) 推荐(0)

flume-kafka-storm日志处理经验

摘要：转自：http://www.aboutyun.com/thread-9216-1-1.html使用Storm处理事务型实时计算需求时的几处难点：http://blog.sina.com.cn/s/blog_6ff05a2c0101ficp.html最近搞日志处理，注意是日志处理，如果用流计算处理一些... 阅读全文

posted @ 2016-01-10 21:25 五三中阅读(2137) 评论(0) 推荐(0)

Hbase写数据，存数据，读数据的详细过程

摘要：转自：http://www.aboutyun.com/thread-10886-1-1.html附HBase 0.94之后Split策略：http://www.aboutyun.com/thread-11211-1-1.html1.Client写入需要哪些过程？2.Hbase是如何读取数据的？Cli... 阅读全文

posted @ 2016-01-10 15:28 五三中阅读(8169) 评论(0) 推荐(0)

HBase在搜狐内容推荐引擎系统中的应用

摘要：转自：http://www.aboutyun.com/thread-7297-1-1.htmlFacebook放弃Cassandra之后，对HBase 0.89版本进行了大量稳定性优化，使它真正成为一个工业级可靠的结构化数据存储检索系统。Facebook的Puma、Titan、ODS时间序列监控系统... 阅读全文

posted @ 2016-01-10 15:24 五三中阅读(1182) 评论(0) 推荐(0)

LSM树由来、设计思想以及应用到HBase的索引

摘要：转自：http://www.cnblogs.com/yanghuahui/p/3483754.html讲LSM树之前，需要提下三种基本的存储引擎，这样才能清楚LSM树的由来：哈希存储引擎是哈希表的持久化实现，支持增、删、改以及随机读取操作，但不支持顺序扫描，对应的存储系统为key-value存储系... 阅读全文

posted @ 2016-01-10 15:16 五三中阅读(780) 评论(0) 推荐(0)

HBase的rowkey设计（含实例）

摘要：转自：http://www.aboutyun.com/thread-7119-1-1.html对于任何系统的数据设计，我们都想提高性能，达到资源最大化利用，那么对于hbase我们产生如下问题：1.hbase rowkey设计如何才能提高性能？2.hbase rowkey如何设计才能散列到不同的节点上... 阅读全文

posted @ 2016-01-10 14:49 五三中阅读(26228) 评论(1) 推荐(1)

hive基本操作

摘要：转自：http://www.aboutyun.com/thread-6867-1-1.html阅读本文章可以带着下面问题：1.与传统数据库对比，找出他们的区别2.熟练写出增删改查（面试必备）创建表：hive> CREATE TABLE pokes (foo INT, bar STRING); Cr... 阅读全文

posted @ 2016-01-09 20:50 五三中阅读(357) 评论(0) 推荐(0)

HIVE Group by、join、distinct等实现原理

摘要：转自：Hive – Distinct 的实现：http://ju.outofmemory.cn/entry/784Hive – Group By 的实现：http://ju.outofmemory.cn/entry/785Hive – JOIN实现过程：http://ju.outofmemory.c... 阅读全文

posted @ 2016-01-09 13:26 五三中阅读(15169) 评论(0) 推荐(0)

深入浅出数据仓库中SQL性能优化之Hive篇

摘要：转自：http://www.csdn.net/article/2015-01-13/2823530摘要：Hive查询生成多个map reduce job，一个map reduce job又有map，reduce，spill，shuffle，sort等多个阶段，所以针对hive查询的优化可以大致分为针... 阅读全文

posted @ 2016-01-09 01:24 五三中阅读(2773) 评论(0) 推荐(0)

大数据时代的技术hive：hive介绍

摘要：转自：http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html我最近研究了hive的相关技术，有点心得，这里和大家分享下。首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性： 1.hive是... 阅读全文

posted @ 2016-01-08 01:45 五三中阅读(1261) 评论(0) 推荐(0)

hive优化之------控制hive任务中的map数和reduce数

摘要：转自http://superlxw1234.iteye.com/blog/1582880一、控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,... 阅读全文

posted @ 2016-01-08 01:43 五三中阅读(345) 评论(0) 推荐(0)

cxzdy

随笔分类 - 大数据面试准备

公告