摘要:        
Spark3.0已经发布半年之久,这次大版本的升级主要是集中在性能优化和文档丰富上,其中46%的优化都集中在Spark SQL上,SQL优化里最引人注意的非Adaptive Query Execution莫属了。 Adaptive Query Execution(AQE)是英特尔大数据技术团队和百度    阅读全文
posted @ 2021-01-23 18:44
王知无
阅读(2882)
评论(0)
推荐(2)
        
            
        
        
摘要:        
一面 简单介绍一下自己以及自己做过的项目; Java HashMap 是不是线程安全的?为什么? 请用 Java 写个单例模式 知道几种 GC 算法? 如何实现一个高效的单项列表逆向输出? 数据湖和数据仓库有什么区别? 详细介绍下 Flink 的 Checkpoint 执行机制(分布式快照) 算法题    阅读全文
posted @ 2021-01-23 18:43
王知无
阅读(1017)
评论(1)
推荐(0)
        
            
        
        
摘要:        
高可靠性分析 Kafka的高可靠性的保障来源于其健壮的副本(replication)策略。通过调节其副本相关参数,可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供Partition级别的复制,replication数量可以配置文件(default.replica    阅读全文
posted @ 2021-01-23 18:42
王知无
阅读(289)
评论(0)
推荐(0)
        
            
        
        
摘要:        
数据一致性 HDFS作为分布式文件系统在分布式环境下如何保证数据一致性。HDFS中,存储的文件将会被分成若干的大小一致的block分布式地存储在不同的机器上,需要NameNode节点来对这些数据进行管理,存储这些block的结点称为DataNode,NameNode是用来管理这些元数据的。 Name    阅读全文
posted @ 2021-01-23 18:39
王知无
阅读(638)
评论(0)
推荐(0)
        
                    
                
浙公网安备 33010602011771号