07 2020 档案
摘要:HADOOP集群各组件性能调优配置原则如何发挥集群最佳性能原则1:CPU核数分配原则原则2:内存分配原则3:虚拟CPU个数分配原则4:提高磁盘IO吞吐率影响性能的因素因素1:文件服务器磁盘I/O因素2:文件服务器网络带宽因素3:集群节点硬件配置因素4:SFTP参数配置因素5:集群参数配置因素6:Li
阅读全文
摘要:在spark的优化过程中,shuffle的分区数量和数据倾斜问题一直是一个令人比较头疼的问题,自Spark 2.3.1版本后,自动设置shuffle Partition最新代码正式加入,但动态调整执行计划与处理数据倾斜并未同期并入该版本. 关于原理很多文章已经分析的差不多了,这里并不做提及,主要是记
阅读全文

浙公网安备 33010602011771号