Hadoop - 随笔分类 - 咖啡猫1292

HBase查找一条数据的过程

摘要：HBase中的Client如何路由到正确的RegionServer在HBase中，大部分的操作都是在RegionServer完成的，Client端想要插入，删除，查询数据都需要先找到相应的 RegionServer。什么叫相应的RegionServer？就是管理你要操作的那个Region的Regio... 阅读全文

posted @ 2015-04-14 10:45 咖啡猫1292 阅读(574) 评论(0) 推荐(0)

Hadoop：输入，输出，key，value格式

摘要：map: (K1, V1) → list(K2, V2)reduce: (K2, list(V2)) → list(K3, V3)(K1, V1):jobConf.setInputKeyClass(K1. class );jobConf.setInputValueClass(V1. class );... 阅读全文

posted @ 2015-03-31 11:11 咖啡猫1292 阅读(423) 评论(0) 推荐(0)

HBase 实战(2)--时间序列检索和面检索的应用场景实战

摘要：前言: 作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇主要讲述面向时间序列/面检索的应用场景时, 如何利用HBase的特性去处理和优化.构造应用场景某气象局对各个站点的信息... 阅读全文

posted @ 2015-03-28 21:14 咖啡猫1292 阅读(327) 评论(0) 推荐(0)

Hadoop数据类型介绍

摘要：我们知道hadoop是由Java 编程写的。因此我们使用Java开发环境来操作HDFS,编写mapreduce也是很自然的事情。但是这里面hadoop却对Java数据类型进行了包装，那么hadoop的数据类型与Java那些数据类型对应。下面做一些对比：一、 Hadoop数据类型介绍：(1)在hado... 阅读全文

posted @ 2015-03-25 23:43 咖啡猫1292 阅读(1760) 评论(0) 推荐(0)

浅析Hadoop文件格式

摘要：Hadoop 作为MR 的开源实现，一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过，MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建，因此序列化和反序列化的成本过高[7]。本文介绍Hadoop目前已有的几种文件格式，分析其特点、开销及使用场景。希望加... 阅读全文

posted @ 2015-03-25 23:40 咖啡猫1292 阅读(571) 评论(0) 推荐(0)

Hadoop中Combiner的使用

摘要：在MapReduce中，当map生成的数据过大时，带宽就成了瓶颈，怎样精简压缩传给Reduce的数据，有不影响最终的结果呢。有一种方法就是使用Combiner，Combiner号称本地的Reduce，Reduce最终的输入，是Combiner的输出。下面以《Hadoop in action》中的专利... 阅读全文

posted @ 2015-03-25 23:28 咖啡猫1292 阅读(275) 评论(0) 推荐(0)

Pig与Hive的区别

摘要：Language在Hive中可以执行插入/删除等操作，但是Pig中我没有发现有可以插入数据的方法，请允许我暂且认为这是最大的不同点吧。SchemasHive中至少还有一个“表”的概念，但是Pig中我认为是基本没有表的概念，所谓的表建立在Pig Latin脚本中，对与Pig更不要提metadat... 阅读全文

posted @ 2015-03-25 23:16 咖啡猫1292 阅读(398) 评论(0) 推荐(0)

HiveQL(HiveSQL)跟普通SQL最大区别一直使用PIG，而今也需要兼顾HIVE

摘要：HiveQL(Hive SQL)跟普通SQL最大区别一直使用PIG，而今也需要兼顾HIVE。网上搜了点资料，感觉挺有用，这里翻译过来。翻译估计不太准确，待自己熟悉HIVE后再慢慢总结。 * No true date/time data types, no interval types, and... 阅读全文

posted @ 2015-03-25 23:14 咖啡猫1292 阅读(760) 评论(0) 推荐(0)

Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

摘要：初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了，我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂，不要紧糊涂的不止你一个，如某个菜鸟的帖子的疑问，when to use Hbase and when to use Hive？....请教了^_^没关系这里我帮大... 阅读全文

posted @ 2015-03-25 23:13 咖啡猫1292 阅读(220) 评论(0) 推荐(0)

pig hive 区别

摘要：Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结... 阅读全文

posted @ 2015-03-25 23:13 咖啡猫1292 阅读(233) 评论(0) 推荐(0)

hbase基本概念和hbase shell常用命令用法

摘要：1. 简介HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现，它利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数... 阅读全文

posted @ 2015-03-24 09:43 咖啡猫1292 阅读(218) 评论(0) 推荐(0)

hive内部表、外部表

摘要：hive内部表、外部表区别自不用说，可实际用的时候还是要小心。Hive的数据分为表数据和元数据，表数据是Hive中表格（table）具有的数据；而元数据是用来存储表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。下面分别来介绍。一、Hive的数据存储在让你真正明... 阅读全文

posted @ 2015-03-22 21:34 咖啡猫1292 阅读(695) 评论(0) 推荐(0)

123456 所有组合递归

摘要：利用递归进行解决，这里没有考虑字符串中含有重复字符的情况，当字符串长度为1的时候，输出字符，否则递归调用函数package Varstatic;import java.util.Arrays;public class Varstatic { public static void main(St... 阅读全文

posted @ 2015-03-18 22:13 咖啡猫1292 阅读(295) 评论(0) 推荐(0)

HBase体系结构(转)

摘要：HBase的服务器体系结构遵循简单的主从服务器架构，它由HRegion服务器（HRegion Server）群和HBase Master服务器（HBase Master Server)构成。HBase Master服务器负责管理所有的HRegion服务器，而HBase中所有的服务器都是通过ZooKe... 阅读全文

posted @ 2015-03-18 11:57 咖啡猫1292 阅读(183) 评论(0) 推荐(0)

hive

摘要：1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据，同时可以查询hadoop中的数据。本质上讲，hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具，可以把SQL转换为MapReduce... 阅读全文

posted @ 2015-03-17 19:02 咖啡猫1292 阅读(195) 评论(0) 推荐(0)

hbase

摘要：1.HBase(NoSQL)的数据模型1.1 表(table)，是存储管理数据的。1.2 行键(row key)，类似于MySQL中的主键。行键是HBase表天然自带的。1.3 列族(column family)，列的集合。 HBase中列族是需要在定义表时指定的，列是在插入记录时动态... 阅读全文

posted @ 2015-03-17 19:01 咖啡猫1292 阅读(199) 评论(0) 推荐(0)

pig

摘要：1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的，Pig有一套自己的数据处理语言，Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的，类似于初中做的数学题。3.Pig基本数据类型：int、long、float、double、... 阅读全文

posted @ 2015-03-17 18:57 咖啡猫1292 阅读(398) 评论(0) 推荐(0)

flume

摘要：1.flume是分布式的日志收集系统，把收集来的数据传送到目的地去。2.flume里面有个核心概念，叫做agent。agent是一个java进程，运行在日志收集节点。3.agent里面包含3个核心组件：source、channel、sink。3.1 source组件是专用于收集日志的，可以处理各种类... 阅读全文

posted @ 2015-03-14 16:43 咖啡猫1292 阅读(235) 评论(0) 推荐(0)

sqoop

摘要：把mysql中的表复制到hdfs/hive中，hdfs默认路径是/user/(username)中sqoop ##sqoop命令 import ##表示导入 --connect jdbc:mysql://ip:3306/sqoop ##告诉jdbc，连接mysql的url --userna... 阅读全文

posted @ 2015-03-14 10:42 咖啡猫1292 阅读(309) 评论(0) 推荐(0)

eclipse 提交作业到JobTracker Hadoop的数据类型要求必须实现Writable接口

摘要：问：在eclipse中的写的代码如何提交作业到JobTracker中的哪？答：(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect(); info = jobClient.submitJobInternal(conf); (... 阅读全文

posted @ 2015-03-06 23:40 咖啡猫1292 阅读(202) 评论(0) 推荐(0)

咖啡猫

导航

随笔分类 - Hadoop