面试-无答案

本问使用时间倒序排列记录面试题

flink 面试题参考: https://blog.csdn.net/wypblog/article/details/103900577

007

join,intervaljoin,union
flink table的sink模式


006

实时项目中数据为什么存到hbase中不是redis中
flink和sparkstreaming的区别,为什么用flink
Kafka的生产原理和流程
kafka的集群搭建,依据什么搭建的
Kafka调优,spark调优
hbase的rowkey设计规则和如何设计

1.hadoop、spark内存溢出
2.压缩格式
3.spark数据倾斜
4.spark聚合类算子
5.flink海量数据去重
6.ES的搜索过程
7.最短路径算法


005

万顺叫车:
Kafka能否保证单分区有序,retry后会不会乱序
flinktable的sink模式有几种
flink多久保存一次保存点
flink从保存点恢复时算子的唯一标识怎么确定的
双流join的join和intervaljoin的区别
flink从上游数据源消费到的重复数据怎么处理的
flink内存溢出,是怎么查看的


004

hive存储格式
scoop优化
presto连过哪些数据库
kylin怎么设计cube
服务器选型,fume、 kafka台数、数据量
mysql怎么建索引
redis数据类型
内部表外部表的区别
宽依赖窄依赖
单例模式
spark输出10个文件想输出5个怎么调整
hve分区为什么能提高效率
两数相加和为100用java实现
hashmap、 hashtable哪个是线程安全的


003

中科软ETL:
Reduce输出端是小文件如何设置(配置参数)

Linux查看磁盘挂载

指令df -h和fdisk -l

Hive的优化
MR小文件处理
MR流程
Linux命令:find 常用参数

Linux命令:awk 使用

Linux获取参数xargs n1
shell获取命令返回结果
$?的作用
hadoop 常用上传下载命令

场景题:

hadoop 的hdfs 中有一个tmp文件夹下,有若干个文件夹和文件,
要求指删除该文件夹下小于25MB的文件,不删除原有的目录

1


002

1.sql语句的优化,如何提高查询效率。

2.在sql语句运行中,什么情况下会导致索引失效。

3.删除表中的数据,有种方式。

4.如何创建索引

5.创建索引,对于字段有什么样的要求

6.索引和约束有什么区别,总共有索引,分别使用在什么样的场景。

6.如何创建存储过程

7.存储过程游标有那几种,它们由什么区别

8.存储过程由几种循环方式

9.查询结果,如果进行分组和排序,分组和排序运行的优先级是怎么样的

10.left join和inner join的区别

11.union all和union的区别用法


001

自我介绍:

姓名,毕业学校,上一家公司名称,公司产品,职位,项目简单讲一下。

HDFS读流程

MR优化

Gzip,snappy的压缩

HBase的Rowkey的设计

Hive的优化

flink的窗口

flink的时间语义

CEP的逻辑

口述一个flink去重数据

讲一下第一个项目(离线)

为什么使用HBase存储维度数据

实时数仓的几个指标说几个

双流join指定的时间是多少,水位线设置的超时时间是多少

yarn调度器

kafka的副本队列

kafka的flower如果延迟过高会怎么样(OSR和ISR)

kafka的默认清除策略(什么时候会触发)

kafka高级API《自动,手动》<没记全>

HBase写数据(WAL的刷写大小)

HBase中的RowKey设计原则

HBase的列族为什么建立的很少《10G,分裂时所有的列族都会分裂,产生大量小文件?(没记牢)》

Flume Channel 有几种,区别

flink保存状态变量的方式

flink常用API

posted @ 2021-09-03 22:47  Anxc  阅读(41)  评论(0)    收藏  举报