11 2021 档案

摘要:如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理 开启MapJoin参数设置 设置自动选 阅读全文
posted @ 2021-11-21 11:39 HANIEEE 阅读(336) 评论(0) 推荐(0)
摘要:#!/usr/bin/env python3from HiveTask import HiveTaskimport osimport syssys.path.append(os.getenv('HIVE_TASK')) ht = HiveTask() data_day_str = sys.argv[ 阅读全文
posted @ 2021-11-21 11:31 HANIEEE 阅读(231) 评论(0) 推荐(0)
摘要:hive.exec.parallel可以控制一个sql中多个可并行执行的job的运行方式.当hive.exec.parallel为true的时候,同一个sql中可以并行执行的job会并发的执行. 而参数hive.exec.parallel.thread.number就是控制对于同一个sql来说同时可 阅读全文
posted @ 2021-11-21 11:27 HANIEEE 阅读(431) 评论(1) 推荐(0)
摘要: 阅读全文
posted @ 2021-11-14 16:13 HANIEEE 阅读(89) 评论(0) 推荐(0)
摘要:1、B+树是一种树数据结构,是一种平衡搜索树,是一种多叉树,通常用于数据库和操作系统的文件系统中。 2、B+ 树的特点是能够保持数据稳定有序,其插入与修改拥有较稳定的对数时间复杂度。 3、B+树元素自底向上插入,这与二叉树恰好相反。 阅读全文
posted @ 2021-11-14 14:15 HANIEEE 阅读(374) 评论(0) 推荐(0)
摘要:存储引擎:不同的数据文件在磁盘的组织形式 InnoDB存储引擎 B+树索引 为什么MySQL使用B+树作为InnoDB存储引擎的索引结构? 答:1.Hash表索引: 优点:适合等值查询 缺点:所有数据均在内存,不适合范围查询。 2.二叉树和红黑树都是存单个数据值,不是值的集合。容易造成深度太深,IO 阅读全文
posted @ 2021-11-14 13:55 HANIEEE 阅读(52) 评论(0) 推荐(0)
摘要:HashMap 有一个扰动函数,来判断元素落在数组的位置。 混合高二进制位和低二进制位来加大随机性 阅读全文
posted @ 2021-11-14 13:16 HANIEEE 阅读(148) 评论(0) 推荐(0)