01 2019 档案
摘要:一、kudu概念 Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。 这是一个为块数
阅读全文
摘要:之前做了记录了spark的一些配置调优,接下来记录一下本人在开发中用到的一些调优手段。 算子调优 MapPartitons提升Map类操作性能: spark中每个task处理一个RDD的partition,一条一条数据--> task function MapPartitons后所有的数据(一个分区
阅读全文
摘要:性能调优: 总则:加资源加并行度 简单直接,调节最优的资源配置 RDD架构和持久化 当可分配的资源无法达到更多的时候在考虑性能调优 从 重剑无锋 到 花拳绣腿 1.分配资源 并行度 RDD架构和缓存 2.shuffle调优 3.spark算子调优 4.JVM调优 、 广播大变量 分配哪些资源:exe
阅读全文

浙公网安备 33010602011771号