01 2019 档案

摘要:一、kudu概念 Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。 这是一个为块数 阅读全文
posted @ 2019-01-13 23:29 力扛九鼎 阅读(6704) 评论(0) 推荐(0)
摘要:之前做了记录了spark的一些配置调优,接下来记录一下本人在开发中用到的一些调优手段。 算子调优 MapPartitons提升Map类操作性能: spark中每个task处理一个RDD的partition,一条一条数据--> task function MapPartitons后所有的数据(一个分区 阅读全文
posted @ 2019-01-06 15:33 力扛九鼎 阅读(880) 评论(0) 推荐(0)
摘要:性能调优: 总则:加资源加并行度 简单直接,调节最优的资源配置 RDD架构和持久化 当可分配的资源无法达到更多的时候在考虑性能调优 从 重剑无锋 到 花拳绣腿 1.分配资源 并行度 RDD架构和缓存 2.shuffle调优 3.spark算子调优 4.JVM调优 、 广播大变量 分配哪些资源:exe 阅读全文
posted @ 2019-01-01 15:04 力扛九鼎 阅读(430) 评论(0) 推荐(0)