hive - 随笔分类 - 温家三哥

SQL中ON和WHERE的区别

摘要：SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。在使用left jion时，on和where条件的区别如下：1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。2、where条阅读全文

posted @ 2022-01-13 16:42 温家三哥

Hive笔记之Fetch Task

摘要：Hive笔记之Fetch Task 在使用Hive的时候，有时候只是想取表中某个分区的前几条的记录看下数据格式，比如一个很常用的查询： 1 select * from foo where partition_column=bar limit 10; 这种对数据基本没什么要求，随便来点就行，既然如此为阅读全文

posted @ 2021-07-17 19:06 温家三哥

hive中的null

摘要：hive中的null 在处理流水增量表的时候，出现了一个判定的失误。 1 select a.a1,a.a2 2 from 3 ( 4 select 5 a.a1 6 ,if(a.a2<>b.b2,1,0) as diff 7 ,a.a2 8 from a 9 lefter join b 10 on 阅读全文

posted @ 2021-07-17 18:29 温家三哥

Hive中的日志

摘要：Hive中的日志 Hive中的日志分为两种1. 系统日志，记录了hive的运行情况，错误状况。2. Job 日志，记录了Hive 中job的执行的历史过程。 1.系统日志系统日志存储在什么地方呢？在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情阅读全文

posted @ 2021-07-17 18:16 温家三哥

hive中groupby和distinct区别以及性能比较

摘要：hive中groupby和distinct区别以及性能比较 Hive去重统计先说核心：都会在map阶段count，但reduce阶段，distinct只有一个， group by 可以有多个进行并行聚合，所以group by会快。经常在公司还能看到。很多老人用distinct去重，很容易数据量阅读全文

posted @ 2021-07-17 18:06 温家三哥

从hive中读取数据推送到kafka

摘要：1 # -*- coding: utf-8 -*- 2 # Version: 1.0.0 3 # Description: py_Hive2Kafka2kafka 4 # Author: wqbin 5 # Create_date:20191026 6 7 import re 8 import sy 阅读全文

posted @ 2021-07-17 17:59 温家三哥

使用sql做迁移矩阵

摘要：使用sql做迁移矩阵在数据分析数据差异的时候经常用到一个图叫做迁移矩阵。其中里面的值可以是数量也可以是百分比，我们可以从一个时间点明确的看到在另一个时间点或者另一个时间点子类之间数量迁移。比如这次我在公司与业务核对星级客户数据的时候就用sql实现了迁移矩阵思路就是对数据先进行行转列，再进阅读全文

posted @ 2021-07-17 17:49 温家三哥

hive严格模式

摘要：hive严格模式 1.what is Hive严格模式 Hive提供了一个严格模式，可以防止用户执行那些可能产生意向不到的不好的效果的查询。说通俗一点就是这种模式可以阻止某些查询的执行。通过如下语句设置严格模式： hive> set hive.mapred.mode=strict; 2.why an 阅读全文

posted @ 2021-07-17 17:45 温家三哥

MapReduce 中的两表 join 方案解析

摘要：MapReduce 中的两表 join 方案解析 1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN 阅读全文

posted @ 2021-07-17 17:12 温家三哥

Hive 中的 LEFT SEMI JOIN 与 JOIN ON

摘要：Hive 中的 LEFT SEMI JOIN 与 JOIN ON hive 的 join 类型有好几种，其实都是把 MR 中的几种方式都封装实现了，其中 join on、left semi join 算是里边具有代表性，且使用频率较高的 join 方式。 1、联系他们都是 hive join 方式阅读全文

posted @ 2021-07-17 17:09 温家三哥

SQL中INEXISTS和IN 的区别和联系

摘要：SQL中INEXISTS和IN 的区别和联系 SET NOCOUNT ON ， SET NOCOUNT OFF当 SET NOCOUNT 为 ON 时，不返回计数（表示受 Transact-SQL 语句影响的行数）。当 SET NOCOUNT 为 OFF 时，返回计数。如果存储过程中包含的一些语句并阅读全文

posted @ 2021-07-17 17:05 温家三哥

hive中对子查询如in，exists等支持

摘要：hive中对子查询如in，exists等支持案例情况：同事使用公司数据探查跑一段代码，部分代码如下，报错，显示不支持in内的子查询。但是直接用虚拟机去跑的话代码没有任何报错，也出结果，很奇怪。 1 SELECT t1.SIGN_CODE AS bus_src 2 ,t1.ORGANIZATION_ 阅读全文

posted @ 2021-07-17 16:51 温家三哥

MySQL 数据类型

摘要：MySQL 数据类型 MySQL中定义数据字段的类型对你数据库的优化是非常重要的。 MySQL支持多种类型，大致可以分为三类：数值、日期/时间和字符串(字符)类型。数值类型 MySQL支持所有标准SQL数值数据类型。这些类型包括严格数值数据类型(INTEGER、SMALLINT、DECIMAL和阅读全文

posted @ 2021-07-11 23:15 温家三哥

在hive中执行sql语句：SemanticException org.apache.hadoop.hive.ql.metadata.HiveException:

摘要：在hive中执行sql语句：SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: 1 hive> show databases; 2 FAILED: SemanticException org.apache.hadoo 阅读全文

posted @ 2021-07-11 01:56 温家三哥

hive报错FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException:

摘要：hive报错FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: 安装配置好hive后启动hive正常，能进入到hive命令行界面，运行show databases报错FAILED: SemanticE 阅读全文

posted @ 2021-07-11 01:33 温家三哥

CentOS 7中成功安装MariaDB的方法教程&Linux上mariadb的安装与配置

摘要：CentOS 7中成功安装MariaDB的方法教程前言在自己的VPS的CentOS7安装Oracle的Mysql失败以后，我又开始找CentOS7上面安装MariaDB的方法，于是从网上找到了安装MariaDB一篇文章便实践起来，一步步的安装成功了，所以将自己安装的步骤总结处理分享给大家，下面话阅读全文

posted @ 2021-07-10 22:56 温家三哥

hiveSQL执行，转化为MR过程

摘要：-- hive的库、表等数据操作实际是hdfs系统中的目录和文件，让开发者可以通过sql语句，像操作关系数据库一样操作文件内容。一、hiveSQL转化为MR过程一直好奇hiveSQL转化为MR过程，好奇hive是如何做到这些的，所以在网上找了几篇相关博客，根据自己理解重新画了一份执行过程图，做阅读全文

posted @ 2021-06-08 16:22 温家三哥阅读(1254) 评论(0) 推荐(0)

hive优化之——控制hive任务中的map数和reduce数

摘要：一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义阅读全文

posted @ 2021-06-08 16:11 温家三哥阅读(287) 评论(0) 推荐(0)

hive sql语句转换成mapreduce

摘要：1.hive是什么？ 2.MapReduce框架实现SQL基本操作的原理是什么? 3.Hive怎样实现SQL的词法和语法解析? hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构阅读全文

posted @ 2021-06-08 15:33 温家三哥阅读(2204) 评论(0) 推荐(1)

Hive底层原理：explain执行计划详解

posted @ 2021-05-28 15:51 温家三哥阅读(898) 评论(0) 推荐(0)

温家三哥

学我所学，爱我所学，人生旅途，面朝大海，春暖花开。

随笔分类 - hive

公告