文章分类 -  Hive

Hive是基于Hadoop(存储用:HDFS,计算用MR)的一个数据仓库工具,可将SQL转换成MR
摘要:bilib-Hive (一) Hadoop与MapReduce、Hive的基本概念与QuickStart 官网:http://hive.apache.org/Wiki(Hive学习):https://cwiki.apache.org/confluence/display/Hive/Home语法手册: 阅读全文

posted @ 2021-08-24 20:19 MissRong 阅读(273) 评论(0) 推荐(0) |

摘要:Hive进阶篇(十一)练习 1、将网站的访问日志导入Hive,然后 建立按访问时间以小时来分割的分区表 首先日志pq_access_logs 的内容格式为: 1)创建分区表 DROP TABLE IF EXISTS partitioned_hour_logs; CREATE EXTERNAL TAB 阅读全文

posted @ 2021-02-20 21:31 MissRong 阅读(233) 评论(0) 推荐(0) |

摘要:Hive进阶篇(十)总结 一、知识点梳理 二、常用面试题 1、Hive Metastore服务的作用 客户端连接metastore服务,metastore再去连接MySQL数据库来存取元数据。 有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL数据库的用户名和 阅读全文

posted @ 2021-02-20 21:30 MissRong 阅读(388) 评论(0) 推荐(0) |

摘要:Hive进阶篇(九)Hive的升级-Tez引擎 一、Tez引擎介绍 • Hortonworks开源的Apache项目, Hive2.0后默认的执行引擎 • Tez是一个支持DAG作业的分布式执行框架。 • 它能够轻而易举地映射到更高级的声明式语言,例如Hive、Pig、Cascading等。 • 它 阅读全文

posted @ 2021-02-19 16:19 MissRong 阅读(497) 评论(0) 推荐(0) |

摘要:Hive进阶篇(八)Hive查询调优* 一、JOIN优化 1.Reduce Side Join 在Reduce中做Join 2.Map Join 在Map阶段就Join好,省略了Reduce阶段 分桶介绍 分桶的前提是数据不倾斜 分桶后的两张表进行Join要比这两张大表直接进行Join高效 一般文件 阅读全文

posted @ 2021-02-19 14:32 MissRong 阅读(356) 评论(0) 推荐(0) |

摘要:Hive进阶篇(七)Hive运行原理 一、Hive整体架构 二、SQL执行流程 客户端将SQL命令发送给Hive的驱动(Hive Server中的DriverClass) 驱动将SQL命令送到编译器中进行解析编译(判断这个表是什么表,生成一个执行计划) 执行计划就是一组MR的工作流 然后驱动将这个工 阅读全文

posted @ 2021-02-18 18:57 MissRong 阅读(254) 评论(0) 推荐(0) |

摘要:Hive进阶篇(六)Hive函数总结 一、Hive函数分类 • 内置标准函数 定义:org/apache/hadoop/hive/ql/exec/FunctionRegistry.java • 数学函数 • 日期函数 • 类型转换函数 • 条件函数 • 字符函数 • 内置聚合函数 • 内置表生成函数 阅读全文

posted @ 2021-02-18 16:47 MissRong 阅读(130) 评论(0) 推荐(0) |

摘要:Hive进阶篇(五)表生成函数 生成表函数-explode() 1.首先删除原有的表 drop table if exists management; 2.创建新表 create table management (manager_name string, direct_reports array< 阅读全文

posted @ 2021-02-18 16:31 MissRong 阅读(224) 评论(0) 推荐(0) |

摘要:Hive进阶篇(四)窗口分析函数 一、窗口分析函数解析 窗口分析函数(Windowing and Analytics Functions)SELECT column_A, ROW_NUMBER() OVER (PARTITION BY column_C SORT BY xxx) as rn FROM 阅读全文

posted @ 2021-02-18 16:06 MissRong 阅读(969) 评论(0) 推荐(0) |

摘要:Hive进阶篇(三)创建表+表结构*(字段类型、文件格式、行格式、分区表) 一、创建表 外部表的彻底删除参考:https://www.cnblogs.com/liuxinrong/articles/14409076.html 二、字段类型 1、简单的 2、复杂的 三、文件格式 1、文本 log(日志 阅读全文

posted @ 2021-02-18 00:15 MissRong 阅读(4046) 评论(0) 推荐(0) |

摘要:Hive进阶篇(二)基本操作--根据日志建表+常用命令(含汇总) 一、启动Hive(CDH集群的) 参考:https://www.cnblogs.com/liuxinrong/articles/12818700.html 二、上传日志文件 上传到HDFS上的/user/hive/warehouse/ 阅读全文

posted @ 2021-02-17 16:17 MissRong 阅读(758) 评论(0) 推荐(0) |

摘要:Hive进阶篇(一)理论 一、简介 Hive-基于MR的SQL计算引擎 二、大数据的存储 1、通常存储在 HDFS-分布式文件存储系统2、云存储(兼容HDFS):S3 / OSS 三、离线计算 MapReduce-框架 执行会放到Yarn上执行Hive-计算引擎 基于MapReduce 更适合做ET 阅读全文

posted @ 2021-02-16 13:36 MissRong 阅读(127) 评论(0) 推荐(0) |

该文被密码保护。

posted @ 2020-07-26 19:35 MissRong 阅读(0) 评论(0) 推荐(0) |

摘要:数据仓库(四)星型模型和雪花模型 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 一、星型模型 当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模 阅读全文

posted @ 2020-04-14 17:21 MissRong 阅读(696) 评论(0) 推荐(0) |

摘要:数据仓库(三)元数据介绍 当需要了解某地企业及其提供的服务时,电话黄页的重要性就体现出来了。元数据(Metadata)类似于这样的电话黄页。 1)元数据的定义 数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。 广义上讲, 阅读全文

posted @ 2020-04-14 17:02 MissRong 阅读(637) 评论(0) 推荐(0) |

摘要:数据仓库(二)数据仓库架构分层 一、数据仓库架构 数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层)。 1)ODS层: 为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是 阅读全文

posted @ 2020-04-14 16:47 MissRong 阅读(1300) 评论(0) 推荐(0) |

摘要:数据仓库(一)初始数据仓库 一、什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及 阅读全文

posted @ 2020-04-14 16:35 MissRong 阅读(283) 评论(0) 推荐(0) |

摘要:一、推测执行 在分布式集群环境下,因为程序Bug(包括Hadoop本身的bug),负载不均衡或者资源分布不均等原因,会造成同一个作业的多个任务之间运行速度不一致,有些任务的运行速度可能明显慢于其他任务(比如一个作业的某个任务进度只有50%,而其他所有任务已经运行完毕),则这些任务会拖慢作业的整体执行 阅读全文

posted @ 2020-04-14 00:06 MissRong 阅读(394) 评论(0) 推荐(0) |

摘要:一、并行执行 Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。 或者Hive执行过程中可能需要的其他阶段。默认情况下,Hive一次只会执行一个阶段。不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就 阅读全文

posted @ 2020-04-13 23:48 MissRong 阅读(213) 评论(0) 推荐(0) |

摘要:Hive-企业级调优(三)数据倾斜 一、合理设置Map数 1)通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小。 2)是不是map数越多越好? 答案是否定的。 如果一个任务有很多小文件(远远小于块 阅读全文

posted @ 2020-04-13 23:37 MissRong 阅读(128) 评论(0) 推荐(0) |

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3