Hive - 文章分类 - 1130136248

hive中UDTF编写和使用(转)

摘要：1. UDTF介绍 UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。 2. 编写自己需要的UDTF 继承org.apache.hadoop.hive.ql.udf.generic.G 阅读全文

posted @ 2016-11-23 12:20 1130136248 阅读(611) 评论(0) 推荐(0)

hive中UDF、UDAF和UDTF使用

摘要：Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括： a）文件格式：Text 阅读全文

posted @ 2016-11-23 11:51 1130136248 阅读(300) 评论(0) 推荐(0)

hive mapjoin使用

摘要：今天遇到一个hive的问题，如下hive sql： select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录，A表只有100行记录，而且B表中数据倾斜特别严重，有一个key上有15亿行记录，在运阅读全文

posted @ 2016-07-21 17:36 1130136248 阅读(527) 评论(0) 推荐(0)

hive的distribute by应用

摘要：hive中的distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，根据reduce的个数进行数据分发，默认是采用hash算法。对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribut 阅读全文

posted @ 2016-06-12 13:45 1130136248 阅读(361) 评论(0) 推荐(0)

hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

摘要：order by order by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。 set hive.mapred.mode=nonstrict; (default value / 默认值) s 阅读全文

posted @ 2016-06-12 13:44 1130136248 阅读(236) 评论(0) 推荐(0)

[一起学Hive]之二十-自定义HiveServer2的用户安全认证

摘要：关键字：hiveserver2、用户安全 HiveServer2提供了JDBC链接操作Hive的功能，非常实用，但如果在使用HiveServer2时候，不注意安全控制，将非常危险，因为任何人都可以作为超级用户来操作Hive及HDFS数据。比如：在配置HiveServer2的时候，hive.serv 阅读全文

posted @ 2016-05-23 11:24 1130136248 阅读(12442) 评论(0) 推荐(1)

[一起学Hive]之十九-使用Hive API分析HQL的执行计划、Job数量和表的血缘关系

摘要：关系 Hive lxw1234@qq.com 9个月前 (09-01) 2468℃ 1评论关键字：Hive HQL Job数量、Hive执行计划、Hive LineageInfo 本文介绍使用Hive的API获取一条HQL的最终执行计划，从而获取这条HQL的Job数量，另外，介绍使用API分析一条阅读全文

posted @ 2016-05-23 11:23 1130136248 阅读(4871) 评论(0) 推荐(0)

[一起学Hive]之十八-Hive UDF开发

摘要：关键字：Hive udf、UDF、GenericUDF Hive中，除了提供丰富的内置函数（见[一起学Hive]之二–Hive函数大全-完整版）之外，还允许用户使用Java开发自定义的UDF函数。开发自定义UDF函数有两种方式，一个是继承org.apache.hadoop.hive.ql.exec 阅读全文

posted @ 2016-05-23 11:22 1130136248 阅读(6418) 评论(0) 推荐(0)

[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling

摘要：关键字：Hive数据取样、Hive Sampling、Hive TABLESAMPLE. 在Hive中提供了数据取样（SAMPLING）的功能，用来从Hive表中根据一定的规则进行数据取样，Hive中的数据取样支持分桶表取样和数据块取样。 16.1 数据块取样（Block Sampling） blo 阅读全文

posted @ 2016-05-23 11:02 1130136248 阅读(1067) 评论(0) 推荐(0)

[一起学Hive]之十六-Hive的WEB页面接口-HWI

摘要：关键字：Hive WEB接口、Hive HWI Hive提供给用户的交互接口一般有三种：Hive命令行(Hive Command Line)、JDBC/ODBC以及Hive WEB Interface（HWI）。对于开发者来说，最常用的是Hive命令行。如果是将Hive开放给数据分析或数据运营人员做阅读全文

posted @ 2016-05-23 10:29 1130136248 阅读(2532) 评论(0) 推荐(1)

[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)

摘要：关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间阅读全文

posted @ 2016-05-23 10:23 1130136248 阅读(7411) 评论(0) 推荐(0)

[一起学Hive]之十四-Hive的元数据表结构详解

摘要：关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以H 阅读全文

posted @ 2016-05-22 21:45 1130136248 阅读(24038) 评论(0) 推荐(1)

基于Hadoop集群的Hive安装

摘要：配置/usr/local/apache-hive-0.13.0-bin/conf下的hive-env.sh，hive-site.xml 进入hive/conf目录修改hive-site.xml文件修改如下配置 <property> <name>javax.jdo.option.Connectio 阅读全文

posted @ 2016-05-22 21:30 1130136248 阅读(1610) 评论(0) 推荐(0)

Hive over HBase和Hive over HDFS性能比较分析

摘要：环境配置： hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node) hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node) hive-0.10.0-cdh4.3.0 一、查询性能比较： query1: select 阅读全文

posted @ 2016-05-22 20:51 1130136248 阅读(994) 评论(0) 推荐(0)

[一起学Hive]之十三-Hive整合HBase，操作HBase表

摘要：关键字：Hive整合HBase、Hive操作HBase表十二、Hive整合HBase，操作HBase表 HBase是被设计用来做k-v查询的，但有时候，也会遇到基于HBase表的复杂统计，写MR很不方便。Hive考虑到了这点，提供了操作HBase表的接口。关于Hive操作HBase表的原理，请参阅读全文

posted @ 2016-05-22 20:48 1130136248 阅读(11494) 评论(0) 推荐(0)

[一起学Hive]之十二-Hive SQL的优化

摘要：关键字： Hive 优化、HQL 优化、Hive数据倾斜十一、Hive SQL的优化本章只是从HQL层面介绍一下，日常开发HQL中需要注意的一些优化点，不涉及Hadoop层面的参数、配置等优化。其中大部分是我之前发过的博客文章，这里整理了下。 11.1 使用分区剪裁、列剪裁在SELECT中，阅读全文

posted @ 2016-05-22 20:23 1130136248 阅读(971) 评论(0) 推荐(1)

[一起学Hive]之十一-Hive中Join的类型和用法

摘要：关键字：Hive Join、Hive LEFT|RIGTH|FULL OUTER JOIN、Hive LEFT SEMI JOIN、Hive Cross Join Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联，还支持LEFT SEMI JOIN和CROSS JOIN，但这两种阅读全文

posted @ 2016-05-22 20:15 1130136248 阅读(363) 评论(0) 推荐(0)

[一起学Hive]之十-Hive中Join的原理和机制

摘要：关键词：Hive MapJoin、Hive Common Join、Hive Reduce Join、Hive Join 九、Hive中Join的原理和机制笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简阅读全文

posted @ 2016-05-22 20:04 1130136248 阅读(1553) 评论(0) 推荐(0)

hive的Specified key was too long; max key length is 767 bytes问题解决

摘要：经过查询才知道，是Mysql的字段设置的太长了，于是我把这两个字段的长度改了一下就好了。建立索引时，数据库计算key的长度是累加所有Index用到的字段的char长度后再按下面比例乘起来不能超过限定的key长度1000： latin1 = 1 byte = 1 character uft8 = 3 阅读全文

posted @ 2016-05-22 11:36 1130136248 阅读(324) 评论(0) 推荐(0)

HiveQL详解（经典好文）

摘要：HiveQL详解 HiveQL是一种类似SQL的语言, 它与大部分的SQL语法兼容, 但是并不完全支持SQL标准, 如HiveQL不支持更新操作, 也不支持索引和事务, 它的子查询和join操作也很局限, 这是因其底层依赖于Hadoop云平台这一特性决定的, 但其有些特点是SQL所无法企及的。例如多阅读全文

posted @ 2016-05-22 10:57 1130136248 阅读(546) 评论(0) 推荐(0)

文章分类 - Hive