posted @ 2015-08-19 16:37
chamie
阅读(6)
推荐(0)
摘要:
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。3.agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类...
阅读全文
posted @ 2015-08-17 20:40
chamie
阅读(495)
推荐(0)
摘要:
SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中1.安装SQOOP1.1先将SQOOP文件放到/usr/local/下1....
阅读全文
posted @ 2015-08-17 19:22
chamie
阅读(1824)
推荐(0)
摘要:
z摘自:http://www.linuxidc.com/Linux/2014-03/98978.htmhadoop生态圈Pig一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有...
阅读全文
posted @ 2015-08-17 18:56
chamie
阅读(20837)
推荐(3)
摘要:
1.Hive概述1.1在hadoop生态圈中属于数据仓库的角色。它能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为Map...
阅读全文
posted @ 2015-08-17 18:35
chamie
阅读(613)
推荐(0)
摘要:
1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。3.Pig基本数据类型:int、long、float、double、...
阅读全文
posted @ 2015-08-17 15:52
chamie
阅读(353)
推荐(0)
摘要:
1.HBase的机群搭建过程(在原来的hadoop0上的HBase伪分布基础上进行搭建)1.1 集群结构,主节点(hmaster)是hadoop0,从节点(region server)是hadoop1和hadoop21.2 修改hadoop0上的hbase的几个文件 (1)修改hbase-...
阅读全文
posted @ 2015-08-17 13:40
chamie
阅读(192)
推荐(0)
摘要:
1、HBase提供了一个shell的终端给用户交互2、HBaseShell的DDL操作(1)先进入HBase的Shell命令行,即HBASE_HOME/bin/hbase shell …… >quit创建表: >create 'users','user_id','address','info'...
阅读全文
posted @ 2015-08-16 21:34
chamie
阅读(274)
推荐(0)
摘要:
1把hbase-0.94.2-security.tar.gz复制到/usr/local2 解压缩、重命名、设置环境变量cd /usr/localtar -zxvf hbase-0.94.2-security.tar.gzmv hbase-0.94.2-security hbase修改/etc/pro...
阅读全文
posted @ 2015-08-16 21:19
chamie
阅读(316)
推荐(0)
摘要:
1.HBase简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理H...
阅读全文
posted @ 2015-08-16 21:09
chamie
阅读(831)
推荐(0)