大数据面试题 - 随笔分类(第3页) - 秋华

摘要：来源：https://blog.csdn.net/qq_16590169/article/details/103332505 1 数据准备 emp1表： 1 张三 A1 2 李四 A2 3 王五 A3 4 小明 B1 dept1表： A1 财务 A2 人事 create table if not e 阅读全文

posted @ 2021-02-05 22:46 秋华

Hadoop基础（六十）：面试题 Hadoop数据切片（二）切片机制源码

摘要：来源：https://www.cnblogs.com/boccer/p/13735162.html 切片机制源码： ①for (FileStatus file: files) 每个文件单独切片。 ②long length = file.getLen() 获取文件大小。 ③while (((doubl 阅读全文

posted @ 2020-12-23 17:18 秋华

Hadoop基础（五十九）：面试题 Hadoop数据切片（一）基本原理

摘要：来源：https://www.cnblogs.com/boccer/p/13734379.html 数据切片问题：先给不懂得同学解释一下概念：数据块Block：是HDFS物理数据块，一个大文件丢到HDFS上，会被HDFS切分成指定大小的数据块，即Block 数据切片：数据切片是逻辑概念，只是程序阅读全文

posted @ 2020-12-23 17:13 秋华

Hive面试题(11)UDF,UDTF（二）UDTF

摘要：1.udtf介绍及编写 1.1.介绍 HIVE中udtf可以将一行转成一行多列，也可以将一行转成多行多列，使用频率较高。本篇文章通过实际案例剖析udtf的编写及使用方法和原理。阅读本篇文章前请先阅读UDF编写测试数据 drop table if exists test; create table 阅读全文

posted @ 2020-12-23 16:53 秋华

Hive面试题(10)UDF,UDTF（一）UDF

摘要：来源：https://www.cnblogs.com/xuziyu/p/10754592.html 1 UDF的定义 UDF（User-Defined Functions）即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求，这时就需要我们自定义函数了 2 UDF的分类 UDF：on 阅读全文

posted @ 2020-12-23 16:35 秋华

Hive面试题（9）：如何用sqoop将hive中分区表的分区字段导入到MySQL中

摘要：问题分析： hive中分区表其底层就是HDFS中的多个目录下的单个文件，hive导出数据本质是将HDFS中的文件导出 hive中的分区表，因为分区字段（静态分区）不在文件中，所以在sqoop导出的时候，无法将分区字段进行直接导出思路：在hive中创建一个临时表，将分区表复制过去后分区字段转换为普通阅读全文

posted @ 2020-12-21 19:28 秋华

Hadoop基础（五十八）：其他面试题ES（三）

摘要：26、你可以列出 Elasticsearch 各种类型的分析器吗？ Elasticsearch Analyzer 的类型为内置分析器和自定义分析器。 Standard Analyzer 标准分析器是默认分词器，如果未指定，则使用该分词器。它基于Unicode文本分割算法，适用于大多数语言。 Whi 阅读全文

posted @ 2020-12-10 20:03 秋华

Hadoop基础（五十七）：其他面试题ES（二）

摘要：来源：https://mp.weixin.qq.com/s/MU87hW3W2S1Fi6CqnnXAGA 问题列表和答案来自国外博客（原文答案不准确，有错误），为避免误导，我对每个问题做了属于自己的理解和解答。问题都非常基础，文章有点长，但请你耐心把它看完，期望对你的 Elastic 求职有所帮助阅读全文

posted @ 2020-12-10 19:56 秋华

Hadoop基础（五十六）：其他面试题手写Hadoop WordCount

摘要：环境说明: jdk1.8 hadoop-2.7.7 windows上配置好的带有hadoop环境的eclipse 1.自定义Mapper /* * LongWritable对应输入的key类型，默认是行的偏移量LongWritable * Text,对应上输入的value类型，默认行数据Text * 阅读全文

posted @ 2020-12-10 11:47 秋华

Flink实战（105）：配置（四）JobManager 高可用性配置

该文被密码保护。

posted @ 2020-12-04 20:50 秋华

Hive面试题（8）：Hive 执行过程实例分析

摘要：一、Hive 执行过程概述 1、概述（1） Hive 将 HQL 转换成一组操作符（Operator），比如 GroupByOperator, JoinOperator 等（2）操作符 Operator 是 Hive 的最小处理单元（3）每个操作符代表一个 HDFS 操作或者 MapReduc 阅读全文

posted @ 2020-11-30 19:04 秋华

ES面试题（2）

该文被密码保护。

posted @ 2020-10-31 17:42 秋华

秋华

随笔分类 - 大数据面试题

公告