咖啡猫

导航

随笔分类 -  Hadoop

HBase查找一条数据的过程
摘要:HBase中的Client如何路由到正确的RegionServer在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的 RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的Regio... 阅读全文

posted @ 2015-04-14 10:45 咖啡猫1292 阅读(574) 评论(0) 推荐(0)

Hadoop:输入,输出,key,value格式
摘要:map: (K1, V1) → list(K2, V2)reduce: (K2, list(V2)) → list(K3, V3)(K1, V1):jobConf.setInputKeyClass(K1. class );jobConf.setInputValueClass(V1. class );... 阅读全文

posted @ 2015-03-31 11:11 咖啡猫1292 阅读(423) 评论(0) 推荐(0)

HBase 实战(2)--时间序列检索和面检索的应用场景实战
摘要:前言: 作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇主要讲述面向时间序列/面检索的应用场景时, 如何利用HBase的特性去处理和优化.构造应用场景 某气象局对各个站点的信息... 阅读全文

posted @ 2015-03-28 21:14 咖啡猫1292 阅读(327) 评论(0) 推荐(0)

Hadoop数据类型介绍
摘要:我们知道hadoop是由Java 编程写的。因此我们使用Java开发环境来操作HDFS,编写mapreduce也是很自然的事情。但是这里面hadoop却对Java数据类型进行了包装,那么hadoop的数据类型与Java那些数据类型对应。下面做一些对比:一、 Hadoop数据类型介绍:(1)在hado... 阅读全文

posted @ 2015-03-25 23:43 咖啡猫1292 阅读(1760) 评论(0) 推荐(0)

浅析Hadoop文件格式
摘要:Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高[7]。本文介绍Hadoop目前已有的几种文件格式,分析其特点、开销及使用场景。希望加... 阅读全文

posted @ 2015-03-25 23:40 咖啡猫1292 阅读(571) 评论(0) 推荐(0)

Hadoop中Combiner的使用
摘要:在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢。有一种方法就是使用Combiner,Combiner号称本地的Reduce,Reduce最终的输入,是Combiner的输出。下面以《Hadoop in action》中的专利... 阅读全文

posted @ 2015-03-25 23:28 咖啡猫1292 阅读(275) 评论(0) 推荐(0)

Pig与Hive的区别
摘要:Language在Hive中可以执行插入/删除 等操作,但是Pig中我没有发现有可以 插入 数据的方法,请允许我暂且认为这是最大的不同点吧。SchemasHive中至少还有一个“表”的概念,但是Pig中我认为是基本没有表的概念,所谓的表建立在Pig Latin脚本中,对与Pig更不要提metadat... 阅读全文

posted @ 2015-03-25 23:16 咖啡猫1292 阅读(398) 评论(0) 推荐(0)

HiveQL(HiveSQL)跟普通SQL最大区别一直使用PIG,而今也需要兼顾HIVE
摘要:HiveQL(Hive SQL)跟普通SQL最大区别 一直使用PIG,而今也需要兼顾HIVE。网上搜了点资料,感觉挺有用,这里翻译过来。翻译估计不太准确,待自己熟悉HIVE后再慢慢总结。 * No true date/time data types, no interval types, and... 阅读全文

posted @ 2015-03-25 23:14 咖啡猫1292 阅读(760) 评论(0) 推荐(0)

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
摘要:初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?....请教了^_^没关系这里我帮大... 阅读全文

posted @ 2015-03-25 23:13 咖啡猫1292 阅读(220) 评论(0) 推荐(0)

pig hive 区别
摘要:Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结... 阅读全文

posted @ 2015-03-25 23:13 咖啡猫1292 阅读(233) 评论(0) 推荐(0)

hbase基本概念和hbase shell常用命令用法
摘要:1. 简介HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数... 阅读全文

posted @ 2015-03-24 09:43 咖啡猫1292 阅读(218) 评论(0) 推荐(0)

hive内部表、外部表
摘要:hive内部表、外部表区别自不用说,可实际用的时候还是要小心。Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。 一、Hive的数据存储 在让你真正明... 阅读全文

posted @ 2015-03-22 21:34 咖啡猫1292 阅读(695) 评论(0) 推荐(0)

123456 所有组合 递归
摘要:利用递归进行解决,这里没有考虑字符串中含有重复字符的情况,当字符串长度为1的时候,输出字符,否则递归调用函数package Varstatic;import java.util.Arrays;public class Varstatic { public static void main(St... 阅读全文

posted @ 2015-03-18 22:13 咖啡猫1292 阅读(295) 评论(0) 推荐(0)

HBase体系结构(转)
摘要:HBase的服务器体系结构遵循简单的主从服务器架构,它由HRegion服务器(HRegion Server)群和HBase Master服务器(HBase Master Server)构成。HBase Master服务器负责管理所有的HRegion服务器,而HBase中所有的服务器都是通过ZooKe... 阅读全文

posted @ 2015-03-18 11:57 咖啡猫1292 阅读(183) 评论(0) 推荐(0)

hive
摘要:1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce... 阅读全文

posted @ 2015-03-17 19:02 咖啡猫1292 阅读(195) 评论(0) 推荐(0)

hbase
摘要:1.HBase(NoSQL)的数据模型1.1 表(table),是存储管理数据的。1.2 行键(row key),类似于MySQL中的主键。 行键是HBase表天然自带的。1.3 列族(column family),列的集合。 HBase中列族是需要在定义表时指定的,列是在插入记录时动态... 阅读全文

posted @ 2015-03-17 19:01 咖啡猫1292 阅读(199) 评论(0) 推荐(0)

pig
摘要:1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。3.Pig基本数据类型:int、long、float、double、... 阅读全文

posted @ 2015-03-17 18:57 咖啡猫1292 阅读(398) 评论(0) 推荐(0)

flume
摘要:1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。3.agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类... 阅读全文

posted @ 2015-03-14 16:43 咖啡猫1292 阅读(235) 评论(0) 推荐(0)

sqoop
摘要:把mysql中的表复制到hdfs/hive中,hdfs默认路径是/user/(username)中sqoop ##sqoop命令 import ##表示导入 --connect jdbc:mysql://ip:3306/sqoop ##告诉jdbc,连接mysql的url --userna... 阅读全文

posted @ 2015-03-14 10:42 咖啡猫1292 阅读(309) 评论(0) 推荐(0)

eclipse 提交作业到JobTracker Hadoop的数据类型要求必须实现Writable接口
摘要:问:在eclipse中的写的代码如何提交作业到JobTracker中的哪?答:(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect(); info = jobClient.submitJobInternal(conf); (... 阅读全文

posted @ 2015-03-06 23:40 咖啡猫1292 阅读(202) 评论(0) 推荐(0)