面试-无答案
本问使用时间倒序排列记录面试题
flink 面试题参考: https://blog.csdn.net/wypblog/article/details/103900577
007
join,intervaljoin,union
flink table的sink模式
006
实时项目中数据为什么存到hbase中不是redis中
flink和sparkstreaming的区别,为什么用flink
Kafka的生产原理和流程
kafka的集群搭建,依据什么搭建的
Kafka调优,spark调优
hbase的rowkey设计规则和如何设计
1.hadoop、spark内存溢出
2.压缩格式
3.spark数据倾斜
4.spark聚合类算子
5.flink海量数据去重
6.ES的搜索过程
7.最短路径算法
005
万顺叫车:
Kafka能否保证单分区有序,retry后会不会乱序
flinktable的sink模式有几种
flink多久保存一次保存点
flink从保存点恢复时算子的唯一标识怎么确定的
双流join的join和intervaljoin的区别
flink从上游数据源消费到的重复数据怎么处理的
flink内存溢出,是怎么查看的
004
hive存储格式
scoop优化
presto连过哪些数据库
kylin怎么设计cube
服务器选型,fume、 kafka台数、数据量
mysql怎么建索引
redis数据类型
内部表外部表的区别
宽依赖窄依赖
单例模式
spark输出10个文件想输出5个怎么调整
hve分区为什么能提高效率
两数相加和为100用java实现
hashmap、 hashtable哪个是线程安全的
003
中科软ETL:
Reduce输出端是小文件如何设置(配置参数)
Linux查看磁盘挂载
指令df -h和fdisk -l
Hive的优化
MR小文件处理
MR流程
Linux命令:find 常用参数
Linux命令:awk 使用
Linux获取参数xargs n1
shell获取命令返回结果
$?的作用
hadoop 常用上传下载命令
场景题:
hadoop 的hdfs 中有一个tmp文件夹下,有若干个文件夹和文件,
要求指删除该文件夹下小于25MB的文件,不删除原有的目录
1
002
1.sql语句的优化,如何提高查询效率。
2.在sql语句运行中,什么情况下会导致索引失效。
3.删除表中的数据,有种方式。
4.如何创建索引
5.创建索引,对于字段有什么样的要求
6.索引和约束有什么区别,总共有索引,分别使用在什么样的场景。
6.如何创建存储过程
7.存储过程游标有那几种,它们由什么区别
8.存储过程由几种循环方式
9.查询结果,如果进行分组和排序,分组和排序运行的优先级是怎么样的
10.left join和inner join的区别
11.union all和union的区别用法
001
自我介绍:
姓名,毕业学校,上一家公司名称,公司产品,职位,项目简单讲一下。
HDFS读流程
MR优化
Gzip,snappy的压缩
HBase的Rowkey的设计
Hive的优化
flink的窗口
flink的时间语义
CEP的逻辑
口述一个flink去重数据
讲一下第一个项目(离线)
为什么使用HBase存储维度数据
实时数仓的几个指标说几个
双流join指定的时间是多少,水位线设置的超时时间是多少
yarn调度器
kafka的副本队列
kafka的flower如果延迟过高会怎么样(OSR和ISR)
kafka的默认清除策略(什么时候会触发)
kafka高级API《自动,手动》<没记全>
HBase写数据(WAL的刷写大小)
HBase中的RowKey设计原则
HBase的列族为什么建立的很少《10G,分裂时所有的列族都会分裂,产生大量小文件?(没记牢)》
Flume Channel 有几种,区别
flink保存状态变量的方式
flink常用API

浙公网安备 33010602011771号