面试-无答案

本问使用时间倒序排列记录面试题

flink 面试题参考： https://blog.csdn.net/wypblog/article/details/103900577

007

join,intervaljoin,union
flink table的sink模式

006

实时项目中数据为什么存到hbase中不是redis中
flink和sparkstreaming的区别，为什么用flink
Kafka的生产原理和流程
kafka的集群搭建，依据什么搭建的
Kafka调优，spark调优
hbase的rowkey设计规则和如何设计

1.hadoop、spark内存溢出
2.压缩格式
3.spark数据倾斜
4.spark聚合类算子
5.flink海量数据去重
6.ES的搜索过程
7.最短路径算法

005

万顺叫车：
Kafka能否保证单分区有序，retry后会不会乱序
flinktable的sink模式有几种
flink多久保存一次保存点
flink从保存点恢复时算子的唯一标识怎么确定的
双流join的join和intervaljoin的区别
flink从上游数据源消费到的重复数据怎么处理的
flink内存溢出，是怎么查看的

004

hive存储格式
scoop优化
presto连过哪些数据库
kylin怎么设计cube
服务器选型,fume、 kafka台数、数据量
mysql怎么建索引
redis数据类型
内部表外部表的区别
宽依赖窄依赖
单例模式
spark输出10个文件想输出5个怎么调整
hve分区为什么能提高效率
两数相加和为100用java实现
hashmap、 hashtable哪个是线程安全的

003

中科软ETL：
Reduce输出端是小文件如何设置（配置参数）

Linux查看磁盘挂载

指令df -h和fdisk -l

Hive的优化
MR小文件处理
MR流程
Linux命令：find 常用参数

Linux命令：awk 使用

Linux获取参数xargs n1
shell获取命令返回结果
$?的作用
hadoop 常用上传下载命令

场景题：

hadoop 的hdfs 中有一个tmp文件夹下，有若干个文件夹和文件，
要求指删除该文件夹下小于25MB的文件，不删除原有的目录

002

1.sql语句的优化，如何提高查询效率。

2.在sql语句运行中，什么情况下会导致索引失效。

3.删除表中的数据，有种方式。

4.如何创建索引

5.创建索引，对于字段有什么样的要求

6.索引和约束有什么区别，总共有索引，分别使用在什么样的场景。

6.如何创建存储过程

7.存储过程游标有那几种，它们由什么区别

8.存储过程由几种循环方式

9.查询结果，如果进行分组和排序，分组和排序运行的优先级是怎么样的

10.left join和inner join的区别

11.union all和union的区别用法

001

自我介绍：

姓名，毕业学校，上一家公司名称，公司产品，职位，项目简单讲一下。

HDFS读流程

MR优化

Gzip，snappy的压缩

HBase的Rowkey的设计

Hive的优化

flink的窗口

flink的时间语义

CEP的逻辑

口述一个flink去重数据

讲一下第一个项目（离线）

为什么使用HBase存储维度数据

实时数仓的几个指标说几个

双流join指定的时间是多少，水位线设置的超时时间是多少

yarn调度器

kafka的副本队列

kafka的flower如果延迟过高会怎么样（OSR和ISR）

kafka的默认清除策略（什么时候会触发）

kafka高级API《自动，手动》<没记全>

HBase写数据（WAL的刷写大小）

HBase中的RowKey设计原则

HBase的列族为什么建立的很少《10G，分裂时所有的列族都会分裂，产生大量小文件？（没记牢）》

Flume Channel 有几种，区别

flink保存状态变量的方式

flink常用API

posted @ 2021-09-03 22:47 Anxc 阅读(45) 评论(0) 收藏举报

刷新页面返回顶部

Anxc

夜晚的星星或许不是最耀眼的，但它依旧闪闪发光。

面试-无答案

007

006

005

004

003

002

001

公告