随笔分类 -  Hadoop总结系列

摘要:解决办法: cd /usr/share/java/,(没有java文件夹,自行创建)rz mysql-connector-java-***.jar,mv mysql-connector-java-***.jar mysql-connector-java.jar 阅读全文
posted @ 2016-11-21 11:25 木子小僧 阅读(787) 评论(0) 推荐(0)
摘要:简单写一下如何将订单表sqoop到hbase表中的步骤。 下表: 1、通过hbase shell 打开hbase。 2、创建一个hbase表 3、将so表的数据导入到hbase中。 opt文件: 执行:sqoop --options-file ./so_hbase.opt 阅读全文
posted @ 2016-08-11 18:44 木子小僧 阅读(3207) 评论(2) 推荐(0)
摘要:1、hive建表 hive是支持分区的,但是这次建表没有写分区。 2、opt文件 3、执行opt文件 sqoop --options-file 目录.opt 阅读全文
posted @ 2016-08-09 15:20 木子小僧 阅读(2496) 评论(0) 推荐(0)
摘要:1、统计每张表的数据量SELECT *FROM ( select TABLE_NAME, concat( round( sum(DATA_LENGTH / 1024 / 1024 ), 7 ) ) as size from information_schema. tables where table 阅读全文
posted @ 2016-08-09 09:58 木子小僧 阅读(5427) 评论(0) 推荐(0)
摘要:一、虚拟机的安装和网络配置。 1、虚拟机安装。 2、安装CentOS-6.5 64位版本。 桥接模式; Master: 内存:3G; 硬盘容量40G; 4核; Slave: 内存2G; 硬盘容量30G; 2核; 3、网络配置(master,slave) 1)进入root账号 su - root 输入 阅读全文
posted @ 2016-08-05 11:38 木子小僧 阅读(1646) 评论(0) 推荐(0)
摘要:由于暴力关机,Hadoop fs -ls 出现了下图问题: 问题出现的原因是下面红框框里面的东西,我当时以为从另一个节点下载一个conf.cloudera.yarn文件就能解决问题,发现不行啊,于是删掉。 从另一个节点scp过来这个文件。 解决办法: 问题解决了。如下图: 阅读全文
posted @ 2016-07-24 00:35 木子小僧 阅读(1227) 评论(0) 推荐(0)
摘要:一、了解hbase的存储体系。 hbase的存储体系核心的有Split机制,Flush机制和Compact机制。 1、split机制 每一个hbase的table表在刚刚开始的时候,只有一个region,随着数据的不断插入到表中,region开始增大,当增大到一定的阀值以后,region就会等分两个 阅读全文
posted @ 2016-07-18 15:06 木子小僧 阅读(282) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2016-07-18 14:28 木子小僧 阅读(356) 评论(0) 推荐(0)
摘要:在执行hbase sqoop抽取的时候,遇到了一个错误,如下图: 在执行程序的过程中,遇到权限问题很正常,也容易让人防不胜防,有问题就想办法解决,这个是关键。 解决办法如下: 第一步:su hdfs,进入hdfs。 第二步:hadoop fs -ls ,瞅瞅user的权限。 第三步:修改权限 had 阅读全文
posted @ 2016-07-15 14:42 木子小僧 阅读(13567) 评论(0) 推荐(1)
摘要:用过以后,总得写个总结,不然,就忘喽。 一、寻找操作的jar包。 java操作hbase,首先要考虑到使用hbase的jar包。 因为咱装的是CDH5,比较方便,使用SecureCRT工具,远程连接到你安装的那台服务器上。 jar包的存放位置在/opt/cloudera/parcels/CDH/li 阅读全文
posted @ 2016-07-13 17:30 木子小僧 阅读(20911) 评论(0) 推荐(0)
摘要:HBase使用客户端API动态创建Hbase数据表并在Hbase下导出执行 首先感谢网络能够给我提供一个开放的学习平台,如果没有网上的技术爱好者提供的帮助,很难学好hbase。 一、hbase简介 官方:HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存 阅读全文
posted @ 2016-05-24 10:48 木子小僧 阅读(425) 评论(0) 推荐(0)
摘要:一、什么是sqoop Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数 阅读全文
posted @ 2016-04-12 23:55 木子小僧 阅读(2066) 评论(0) 推荐(0)
摘要:接Hive学习五 http://www.cnblogs.com/invban/p/5331159.html 一、配置环境变量 hive jdbc的开发,在开发环境中,配置Java环境变量 二、配置文件开发 三、创建项目实现hive的jdbc接口 ①配置Connection的Java文件。 ②开发Hi 阅读全文
posted @ 2016-03-29 16:01 木子小僧 阅读(5735) 评论(0) 推荐(0)
摘要:hive—UDF操作 udf的操作过程: 在HIVE会话中add 自定义函数的jar文件,然后创建function,继而使用函数。 下面就以下面课题为例: 课题:统计每个活动的PV和UV 一、Java通过正则表达式,截取标题名称。 以链接,截取标红的字符串。 http://cms.yhd.com/s 阅读全文
posted @ 2016-03-28 23:12 木子小僧 阅读(15685) 评论(0) 推荐(0)
摘要:文件的加载,只需要三步就够了,废话不多说,来直接的吧。 一、建表 话不多说,直接开始。 建表,对于日志文件来说,最后有分区,在此案例中,对年月日和小时进行了分区。 建表tracktest_log,分隔符为“\t”部分: 在hive的default库中,建表,建表语句为: 1 create table 阅读全文
posted @ 2016-03-28 18:38 木子小僧 阅读(1175) 评论(0) 推荐(1)
摘要:一、Hive的表 Hive的表分为内部表、外部表和分区表。 1、内部表,为托管表。 2、外部表,external。 3、分区表。 详解: 内部表,删除表的时候,数据会跟着删除。 外部表,在删除表的时候,数据不会跟着删除。 默认分隔符:列 为 \001 行分隔符为 \n 分区表: 1、解决查询效率,不 阅读全文
posted @ 2016-03-24 15:21 木子小僧 阅读(559) 评论(0) 推荐(0)
摘要:由于MySQL便于管理,在学习过程中,我选择MySQL。 一,配置元数据库。 1、安装MySQL,采用yum方式。 ①yum install mysql-server,安装mysql服务端,安装服务端的同时,也会把mysql的客户端安装好。 ②数据库字符集设置。 mysql配置文件/etc/my.c 阅读全文
posted @ 2016-03-21 15:31 木子小僧 阅读(1925) 评论(0) 推荐(0)
摘要:一、什么是Hive Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据 阅读全文
posted @ 2016-03-21 10:38 木子小僧 阅读(795) 评论(0) 推荐(0)