随笔分类 - 大数据面试题
摘要:来源:https://blog.csdn.net/qq_16590169/article/details/103332505 1 数据准备 emp1表: 1 张三 A1 2 李四 A2 3 王五 A3 4 小明 B1 dept1表: A1 财务 A2 人事 create table if not e
阅读全文
posted @ 2021-02-05 22:46
秋华
摘要:来源:https://www.cnblogs.com/boccer/p/13735162.html 切片机制源码: ①for (FileStatus file: files) 每个文件单独切片。 ②long length = file.getLen() 获取文件大小。 ③while (((doubl
阅读全文
posted @ 2020-12-23 17:18
秋华
摘要:来源:https://www.cnblogs.com/boccer/p/13734379.html 数据切片问题: 先给不懂得同学解释一下概念: 数据块Block:是HDFS物理数据块,一个大文件丢到HDFS上,会被HDFS切分成指定大小的数据块,即Block 数据切片:数据切片是逻辑概念,只是程序
阅读全文
posted @ 2020-12-23 17:13
秋华
摘要:1.udtf介绍及编写 1.1.介绍 HIVE中udtf可以将一行转成一行多列,也可以将一行转成多行多列,使用频率较高。本篇文章通过实际案例剖析udtf的编写及使用方法和原理。阅读本篇文章前请先阅读UDF编写 测试数据 drop table if exists test; create table
阅读全文
posted @ 2020-12-23 16:53
秋华
摘要:来源:https://www.cnblogs.com/xuziyu/p/10754592.html 1 UDF的定义 UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了 2 UDF的分类 UDF:on
阅读全文
posted @ 2020-12-23 16:35
秋华
摘要:问题分析: hive中分区表其底层就是HDFS中的多个目录下的单个文件,hive导出数据本质是将HDFS中的文件导出 hive中的分区表,因为分区字段(静态分区)不在文件中,所以在sqoop导出的时候,无法将分区字段进行直接导出 思路:在hive中创建一个临时表,将分区表复制过去后分区字段转换为普通
阅读全文
posted @ 2020-12-21 19:28
秋华
摘要:26、你可以列出 Elasticsearch 各种类型的分析器吗? Elasticsearch Analyzer 的类型为内置分析器和自定义分析器。 Standard Analyzer 标准分析器是默认分词器,如果未指定,则使用该分词器。 它基于Unicode文本分割算法,适用于大多数语言。 Whi
阅读全文
posted @ 2020-12-10 20:03
秋华
摘要:来源:https://mp.weixin.qq.com/s/MU87hW3W2S1Fi6CqnnXAGA 问题列表和答案来自国外博客(原文答案不准确,有错误),为避免误导,我对每个问题做了属于自己的理解和解答。 问题都非常基础,文章有点长,但请你耐心把它看完,期望对你的 Elastic 求职有所帮助
阅读全文
posted @ 2020-12-10 19:56
秋华
摘要:环境说明: jdk1.8 hadoop-2.7.7 windows上配置好的带有hadoop环境的eclipse 1.自定义Mapper /* * LongWritable对应输入的key类型,默认是行的偏移量LongWritable * Text,对应上输入的value类型,默认行数据Text *
阅读全文
posted @ 2020-12-10 11:47
秋华
摘要:一、Hive 执行过程概述 1、概述 (1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Operator 是 Hive 的最小处理单元 (3)每个操作符代表一个 HDFS 操作或者 MapReduc
阅读全文
posted @ 2020-11-30 19:04
秋华

浙公网安备 33010602011771号