随笔分类 - Hive
摘要:为什么分桶 (1)获得更高的查询处理效率。桶为表加上了额外的结构,Hive 在处理有些查询时能利用这个结构。具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用 Map 端连接 (Map-side join)高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两
阅读全文
摘要:impala函数支持不行,能处理的问题域有一定的限制,与Hive配合使用,对Hive的结果数据集进行实时分析 impala_jdbc下载地址: https://downloads.cloudera.com/connectors/impala_jdbc_2.5.42.1062.zip https://
阅读全文
摘要:hive 支持自定义UDF,UDTF,UDAF函数 以自定义UDF为例: 使用一个名为evaluate的方法 将写好的代码打为jar包,上传到服务器,或者hdfs 注册函数 注册一个临时函数 使用函数 注册永久函数 从HDFS上注册函数 删除函数
阅读全文
摘要:HiveServer2是经常与beeline一起使用,可以用jdbc客户端远程连接,一般用于生产环境。 在提供传统客服端的功能之外,还提供其他功能。 Beeline连接 启动命令:hiveserver2 启动日志在hive.log中查看 命令: beeline !connect jdbc:hive2
阅读全文
摘要:hive 2.1.1 DML操作 说明:local 如果没有指定local关键字,则filepath引用表所在的文件系统中的文件。 说明:后面的字段对应的是分区字段 into是拼接新的值 overwrite是新值覆盖掉全部旧的值,又分区会覆盖指定分区内的值 说明:如果不指定字段分割方式 将以 ^ A
阅读全文
摘要:hive-version2.1.1 DDL操作 Create/Drop/Alter/Use Database 1 //示例 2 create database if not exists testdb; 1 //示例 2 drop database testdb; 说明:restrict不跟参数为默
阅读全文

浙公网安备 33010602011771号