随笔分类 -  hive&hbase

摘要:1.Storm第一个Demo2.Windows下基于eclipse的Storm应用开发与调试3.Storm实例+mysql数据库保存4.Storm原理介绍5. flume+kafka+storm+mysql 实时架构1.Storm第一个Demo Storm运行模式:本地模式(Local Mode)... 阅读全文
posted @ 2015-09-11 16:59 晋心 阅读(1028) 评论(0) 推荐(0)
摘要:在hive中操作任意mapreduce相关语句The size of Container logs revealed the below error:2015-04-24 11:41:41,858 WARN [main] org.apache.hadoop.mapred.MapTask: Unabl... 阅读全文
posted @ 2015-06-10 08:57 晋心 阅读(920) 评论(0) 推荐(0)
摘要:在这里我们不需要搭建独立的Spark集群,利用Yarn Client调用Hadoop集群的计算资源。Spark源码编译生成配置包:解压源码,在根去根目录下执行以下命令(sbt编译我没尝试) ./make-distribution.sh --hadoop 2.4.0 --with-yarn --t... 阅读全文
posted @ 2015-05-14 15:57 晋心 阅读(262) 评论(0) 推荐(0)
摘要:首先要对源码进行编译,生成对应hadoop版本的spark开发程序jar包,上篇已经写了具体的过程,这里不再赘述。在安装spark的机器上,下载eclipse-java-x86_64版本,将spark-assembly.jar和spark/lib下全部加进路径,建立普通java projectWor... 阅读全文
posted @ 2015-05-14 15:46 晋心 阅读(888) 评论(0) 推荐(0)
摘要:Spark SQL 1.3参考官方文档:Spark SQL and DataFrame Guide概览介绍参考:平易近人、兼容并蓄——Spark SQL 1.3.0概览 DataFrame提供了一条联结所有主流数据源并自动转化为可并行处理格式的渠道,通过它Spark能取悦大数据生态链上的所有玩家,... 阅读全文
posted @ 2015-05-08 22:09 晋心 阅读(2402) 评论(1) 推荐(0)
摘要:Spark SQL 1.2运行原理case class方式json文件方式背景:了解到HDP也能够支持Spark SQL,但官方文档是版本1.2,希望支持传统数据库、hadoop平台、文本格式的整合处理 虚线表示还未实现。支持从现有Apache Hive表以及流行的Parquet列式存储格式中读取... 阅读全文
posted @ 2015-05-08 21:02 晋心 阅读(1113) 评论(0) 推荐(0)
摘要:1.hbase相同的rowkey里存在多条记录问题的调研解决方案VERSIONS => 3,Hbaseversion最多插入三条记录将一个集群hbase中表 "VerticalDataTable" 数据插入另一张表时遇到问题,本来有十几个版本,但是只插入了3个版本(还是可以插入成功)搜索后发现是因为... 阅读全文
posted @ 2015-05-02 09:40 晋心 阅读(810) 评论(0) 推荐(0)
摘要:没想到,在我的hadoop2.2.0小集群上上安装传说中的Spark竟然如此顺利,可能是因为和搭建Hadoop时比较像,更多需要学习的地方还是scala编程和RDD机制吧总之,开个好头原来的集群:全源码安装,包括hadoop2.2.0 hive0.13.0 hbase-0.96.2-hadoop2 ... 阅读全文
posted @ 2015-03-17 19:25 晋心 阅读(3717) 评论(0) 推荐(0)
摘要:目录Hive中文乱码问题hive和hbase的版本不一致Ambari hive插入Hbase出错Hive0.12和Hbase0.96不兼容,重新编译hive0.12.0hiveserver不能正常启动hive连接eclipse不能复杂查询,不能加whereHive中文乱码问题众所周知,我们都是使用m... 阅读全文
posted @ 2014-12-18 09:59 晋心 阅读(1733) 评论(0) 推荐(0)
摘要:目录:准备工作Centos安装 mysqlCentos安装HadoopCentos安装hiveJDBC远程连接HiveHbase和hive整合Centos安装Hbase准备工作:配置/etc/hosts127.0.0.1 localhost localhost.localdomain192.16... 阅读全文
posted @ 2014-12-14 16:59 晋心 阅读(1537) 评论(0) 推荐(0)
摘要:HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtab... 阅读全文
posted @ 2014-11-27 21:28 晋心 阅读(359) 评论(0) 推荐(0)
摘要:public static void main(String[] args) throws IOException { //Scan类常用方法说明 //指定需要的family或column ,如果没有调用任何addFamily或Column,会返回所有的columns;... 阅读全文
posted @ 2014-11-27 20:59 晋心 阅读(3715) 评论(0) 推荐(0)
摘要:这里是指java中执行hive或者hiveQL。 注意:而不是经常说的通过JDBC的方式连接Hiveserver2来执行查询。是在部署了hiveserver的服务器上执行hive命令。这样就可以将分析得结果写到文件中,不用一定在hive的命令行client下执行。String sql="show... 阅读全文
posted @ 2014-11-22 16:38 晋心 阅读(870) 评论(0) 推荐(0)
摘要:函数分类oraclehive说明字符函数upper('coolszy')upper(stringA)ucase(stringA)将文本字符串转换成字母全部大写形式lower('KUKA')lower(stringA)lcase(stringA)将文本字符串转换成字母全部小写形式initca... 阅读全文
posted @ 2014-11-22 16:04 晋心 阅读(4559) 评论(0) 推荐(0)
摘要:STORM与HADOOP的比较对于一堆时刻在增长的数据,如果要统计,可以采取什么方法呢?等数据增长到一定程度的时候,跑一个统计程序进行统计。适用于实时性要求不高的场景。如将数据导到HDFS,再运行一个MAP REDUCE JOB。如果实时性要求高的,上面的方法就不行了。因此就带来第二种方法。在数据每... 阅读全文
posted @ 2014-11-16 21:01 晋心 阅读(701) 评论(0) 推荐(0)
摘要:hive调试信息显示模式:./hive -hiveconf hive.root.logger=DEBUG,console非常有用。默认情况下,Hive元数据保存在内嵌的 Derby 数据库中,只能允许一个会话连接,只适合简单的测试。为了支持多用户多会话,则需要一个独立的元数据库,我们使用 MySQL... 阅读全文
posted @ 2014-11-15 21:20 晋心 阅读(12842) 评论(1) 推荐(0)
摘要:Hive只支持在FROM子句中使用子查询,子查询必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ... 阅读全文
posted @ 2014-10-24 23:24 晋心 阅读(1366) 评论(0) 推荐(0)
摘要:1. 什么是hive•Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。•本质是将HQL转换为MapReduce程序2. 为什么使用hive•操作接口采用类SQL语法,提供快速开发的能力•避免了去写MapReduce,减少开发人员的学习成... 阅读全文
posted @ 2014-10-24 12:12 晋心 阅读(2170) 评论(0) 推荐(0)
摘要:在表连接时遇到一个问题:insert overwrite table BF_EVT_CRD_CRT_TRAD2select BF_EVT_CRD_CRT_TRAD.*, jjkdjk.CUST_NO,BF_AGT_CRD_CRT.OUT_CRD_INSTN_CDfrom BF_AGT_CRD_CRT... 阅读全文
posted @ 2014-10-22 15:17 晋心 阅读(3085) 评论(0) 推荐(1)
摘要:hive的多表连接,都会转换成多个MR job,每一个MR job在hive中均称为Join阶段。按照join程序最后一个表应该尽量是大表,因为join前一阶段生成的数据会存在于Reducer 的buffer中,通过stream最后面的表,直接从Reducer中读取已经缓冲的中间数据结果,与后面... 阅读全文
posted @ 2014-10-22 10:17 晋心 阅读(1875) 评论(0) 推荐(0)