摘要:1、hive数据仓库权限问题:set hive.warehouse.subdir.inherit.perms=true;2、HiveServer2的内存连接的个数越多压力越大,可以加大内存;可以通过-Xmx设置,在脚本中设置:-Xmx=2048m 甚至 -Xmx=4g3、关闭推测式任务:默认是打开的...
阅读全文
随笔分类 - hive
摘要:静态分区表:一级分区表:CREATE TABLE order_created_partition ( orderNumber STRING , event_time STRING)PARTITIONED BY (event_month string)ROW FORMAT DELIMITED...
阅读全文
摘要:方式一: hadoop命令导出hadoop fs -get hdfs://hadoop000:8020/data/page_views2 pv2方式二:通过insert...directory导出 【spark暂不支持】导出到本地:INSERT OVERWRITE LOCAL directory...
阅读全文
摘要:语法: COALESCE(T v1, T v2, …) 返回参数中的第一个非空值;如果所有值都为NULL,那么返回NULL以emp表为例:desc emp;empno int None enam...
阅读全文
摘要:存在的问题:当把hql写到shell中,不方便阅读;但把hql写到文件中,又传递不了参数;怎么办呢?自定义hivefile执行方式形如:第一个参数为要执行的hql文件,后续的参数为要替换的key-value对。hivefile d:/hivefile_test.hql -date "2013-01-...
阅读全文
摘要:Hive默认情况下查询结果里面是只显示值:hive> select * from click_log;OK11 ad_101 2014-05-01 06:01:12.334+0122 ad_102 2014-05-01 07:28:12.342+0133 ad_10...
阅读全文
摘要:启动HiveServer2:cd $HIVE_HOME/bin以后台方式默认端口启动HiveServer2(默认端口是10000):hiveserver2 &以后台方式指定端口的方式启动:hiveserver2 --hiveconf hive.server2.thrift.port=14000 &使...
阅读全文
摘要:ARRAY一组有序字段,字段的类型必须相同。Array(1,2)create table hive_array(ip string, uid array)row format delimited fields terminated by ','collection items terminated ...
阅读全文
摘要:Hive常用的存储类型有:1、TextFile: Hive默认的存储类型;文件大占用空间大,未压缩,查询慢;2、Sequence File:将属于以的形式序列化到文件中;该类型的文件存储略大于TEXTFILE类型;3、RCFile:面向列的文件格式。遵循“先按列划分再按行划分”的理念。在查询过程中,...
阅读全文
摘要:order by1、order by会对输入按照指定字段做全局排序,输出结果有序,因此只有一个reducer(多个reducer无法保证全局排序,手工设定reduce数量无效); 只有一个reducer会导致当输入规模较大时,需要较长的计算时间,速度很非常慢;在数据量大的情况下慎用order by...
阅读全文
摘要:本案例使用的数据均来源于Oracle自带的emp和dept表创建表语法:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment], ...)] [...
阅读全文
摘要:Hive架构1)用户接口: CLI(hive shell):命令行工具;启动方式:hive 或者 hive --service cli ThriftServer:通过Thrift对外提供服务,默认端口是10000;启动方式:hive --service hiveserver WEBUI(浏览器...
阅读全文
摘要:Hive默认元数据信息存储在Derby里,Derby内置的关系型数据库、单Session的(只支持单客户端连接,两个客户端连接过去会报错);Hive支持将元数据存储在关系型数据库中,比如:Mysql/Oracle;本案例采用的是将hive的元数据存储在MySQL中,故需要先安装MySQL数据库,使用...
阅读全文
摘要:Hive是什么1)Hive由facebook开源,构建在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;2)一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;3)Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据;4)...
阅读全文
浙公网安备 33010602011771号