摘要: 向导 数据结构 视频表 用户表 需求描述 解答 1. 统计视频观看数Top10 2. 统计视频类别热度Top10 3. 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数 4. 统计视频观看数Top50所关联视频的所属类别排序 5. 统计每个类别中的视频热度,视频流量,观看数 阅读全文
posted @ 2020-10-19 22:13 十一vs十一 阅读(976) 评论(0) 推荐(0)
摘要: 一、hive架构相关 二、hive的特点 三、内部表和外部表的区别? 四、4个by的区别? 五、介绍一下有哪些常用函数? 5.1、行转列函数 5.2、列转行函数 5.3、Rank排名函数 5.4、窗口函数(开窗函数) 六、UDF、UDAF、UDTF相关面试题 6.1、UDF、UDAF、UDTF的区别 阅读全文
posted @ 2020-10-19 22:09 十一vs十一 阅读(3520) 评论(0) 推荐(0)
摘要: 本文目录 一、hive架构相关 二、hive的特点 三、内部表和外部表的区别? 四、4个by的区别? 五、介绍一下有哪些常用函数? 5.1、行转列函数 5.2、列转行函数 5.3、Rank排名函数 5.4、窗口函数(开窗函数) 六、UDF、UDAF、UDTF相关面试题 6.1、UDF、UDAF、UD 阅读全文
posted @ 2020-10-19 17:45 十一vs十一 阅读(2792) 评论(0) 推荐(1)
摘要: hive 的使用,内外部表的区别,分区作用, UDF 和 Hive 优化 (1)hive的使用:仓库,工具 (2)内部表:加载数据到hive所在的hdfs目录,删除时,元数据文件都删除 外部表:不加载数据到Hive所在的hdfs目录,删除时,只删除表结构 (3)分区作用:防止数据倾斜 (4)UDF函 阅读全文
posted @ 2020-10-19 17:44 十一vs十一 阅读(136) 评论(0) 推荐(0)
摘要: Hive 原理 1. 用户提交查询等任务给Driver。 2. 编译器获得该用户的任务Plan。 3. 编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。 4. 编译器Compiler得到元数据信息,对任务进行编译,先将HiveQL转换为抽象语法树,然后将抽象语 阅读全文
posted @ 2020-10-19 17:43 十一vs十一 阅读(417) 评论(0) 推荐(0)
摘要: 文章目录 1.什么是hive 2.为什么要用hive 3.hive几种基本表类型 4.内部表(管理表)和外部表的区别 5.Hive数据仓库与数据库的异同 6.Hive 自定义函数 7.Hive中4种排序的区别 8.把数据加载到hive表中? 9.hive创建表的方式及区别 10.hive元数据存放的 阅读全文
posted @ 2020-10-19 17:36 十一vs十一 阅读(592) 评论(0) 推荐(0)
摘要: (九)Hive的5个面试题 目录 一、求单月访问次数和总访问次数 1、数据说明 2、数据准备 3、结果需求 4、需求分析 二、学生课程成绩 1、说明 2、需求 三、求每一年最大气温的那一天 + 温度四、求学生选课情况 1、说明 2、 需求 3、解析 1、数据说明 2、数据准备 3、需求 4、解析 五 阅读全文
posted @ 2020-10-19 17:35 十一vs十一 阅读(391) 评论(0) 推荐(0)
摘要: Hive面试题整理(一) 1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆) 1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 (1)key分布不均匀; (2)业务 阅读全文
posted @ 2020-10-19 17:34 十一vs十一 阅读(659) 评论(0) 推荐(0)
摘要: 1.Hive表关联查询,如何解决数据倾斜的问题 2.谈一下hive的特点,以及hive和RDBMS有什么异同 3.说一下hive中sort by、order by、cluster by、distribute by各代表的意思 4.简要描述数据库中的 null,说出null在hive底层如何存储,并解 阅读全文
posted @ 2020-10-19 17:33 十一vs十一 阅读(337) 评论(0) 推荐(0)
摘要: 1)Hive数据倾斜问题: 倾斜原因: map输出数据按Key Hash分配到reduce中,由于key分布不均匀、或者业务数据本身的特点。等原因造成的reduce上的数据量差异过大。 1.1)key分布不均匀 1.2)业务数据本身的特性 1.3)SQL语句造成数据倾斜 解决方案: 1>参数调节: 阅读全文
posted @ 2020-10-19 17:31 十一vs十一 阅读(197) 评论(0) 推荐(0)
摘要: 1.Hive数据倾斜问题。数据倾斜:数据倾斜主要表现在,map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条Key所在的reduce节点所处 阅读全文
posted @ 2020-10-19 17:16 十一vs十一 阅读(2396) 评论(0) 推荐(0)
摘要: 1. Hive数据倾斜 原因 key分布不均匀 业务数据本身的特性 SQL语句造成数据倾斜 解决方法 hive设置hive.map.aggr=true和hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Job。第 阅读全文
posted @ 2020-10-19 17:14 十一vs十一 阅读(312) 评论(0) 推荐(0)
摘要: 3 3 4 第一题:1.创建 hadoop 帐户。 2.setup.改 IP。 3.安装 java,并修改/etc/profile 文件,配置 java 的环境变量。 4.修改 Host 文件域名。 5.安装 SSH,配置无密钥通信。 6.解压 hadoop。 7.配置 conf 文件下 hadoo 阅读全文
posted @ 2020-10-19 16:36 十一vs十一 阅读(194) 评论(0) 推荐(0)
摘要: 一、来自****提供的面试题(14** 道): 第一题:1.创建 hadoop 帐户。 2.setup.改 IP。 3.安装 java,并修改/etc/profile 文件,配置 java 的环境变量。 4.修改 Host 文件域名。 5.安装 SSH,配置无密钥通信。 6.解压 hadoop。 7 阅读全文
posted @ 2020-10-19 16:34 十一vs十一 阅读(532) 评论(0) 推荐(0)
摘要: 阿里四轮面试总结 第一轮面试电话(**5** 月 6 号): 1.自我介绍,包括做过项目。 2.有看过哪些 JDK 源码,了解哪些常用库。 3.集合框架 HashMap 的扩容机制,ConcurrnetHashMap 的原理 4.jvm 内存模型与 gc 内存回收机制 5.classloader 结 阅读全文
posted @ 2020-10-19 16:33 十一vs十一 阅读(448) 评论(0) 推荐(0)
摘要: 1.1. 导出时报错1.1.1. Could not buffer record在import的时候设置--inline-lob-limit <n> 设置内联的LOB对象的大小1.1.2. Packet for query is too large (1136885 > 1048576). You 阅读全文
posted @ 2020-10-19 16:29 十一vs十一 阅读(304) 评论(0) 推荐(0)
摘要: 安装文档 1. 安装依赖 yum -y install gcc yum -y install gcc-c++ yum -y install ruby yum -y install rubygem* yum -y install ruby-rdoc yum -y install ruby-devel 阅读全文
posted @ 2020-10-19 16:26 十一vs十一 阅读(108) 评论(0) 推荐(0)
摘要: 115个Java面试题和答案——终极列表(上) 2016-04-30 小马哥 java一日一条 本文我们将要讨论Java面试中的各种不同类型的面试题,它们可以让雇主测试应聘者的Java和通用的面向对象编程的能力。下面的章节分为上下两篇,第一篇将要讨论面向对象编程和它的特点,关于Java和它的功能的常 阅读全文
posted @ 2020-10-19 16:13 十一vs十一 阅读(69) 评论(0) 推荐(0)
摘要: 1、面向对象的特征有哪些方面(1).抽象:抽象就是忽略一个主题中与当前目标无关的那些方面,以便更充分地注意与当前目标有关的方面。抽象并不打算了解全部问题,而只是选择其中的一部分,暂时不用部分细节。抽象包括两个方面,一是过程抽象,二是数据抽象。(2).继承:继承是一种联结类的层次模型,并且允许和鼓励类 阅读全文
posted @ 2020-10-19 16:08 十一vs十一 阅读(133) 评论(0) 推荐(0)
摘要: 大数据工程师面试题 1. 选择题 1.1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 答案 C datanode 1.2. HDfS 中的 block 默认保存几份 阅读全文
posted @ 2020-10-19 16:03 十一vs十一 阅读(519) 评论(0) 推荐(0)