面试疑难问题

为什么不直接把CSV文件上传到hdfs而要用flume采集
1. 　　动态分区提取其中的时间戳
2. 断点续传实时监听不用手动续传
3. 要有拦截器配置
4. 事务传输时
5. 更多控制能力积攒到多少批flushing一次
6. 忽略哪种类型的不上传文件太多了一个个手动上传费时费力且容易出错
我一直纠结在AV阿罗通信是干什么的，和我的场景搭配不，是做多个项目不同集群的日志收集
kafka具体数据量
页目录索引下推 reward

页组织成双叶链表如果数据量非常大就不是顺序IO，所以有了区1MB
kafka精确一次扩容broker分区下游的消费者
进程切换要交换的信息保存在pcb中
kafka再平衡粘性策略

consumer消费者组中也是有leader的，有协调器选出协调器把要消费的topic情况发给leader，leader制定消费方案协调器下发消费方案

手动提交漏消费异步同步两种方式
flink

物理分区是并行度的改变打散shuffle 冲缩放轮训
Linux内核页面分配算法伙伴算法
对mapjoin和bucket map join SMBjoin的理解出现了问题
应对数据倾斜

第一个是map端聚合将倾斜的键聚合在一起，一般都能解决
为什么要用Maxwell收集这些信息
Maxwell工作详解
datax有模板

flume也可以配置检查点文件
维度建模
删除 QPS
MapReduce
DataNode

posted @ 2024-05-22 15:57 SunShine789 阅读(23) 评论(0) 收藏举报

刷新页面返回顶部