随笔档案「2019年1月」 - 力扛九鼎

列式存储数据库-kudu

摘要：一、kudu概念 Apache Kudu是由Cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展，使用Raft协议进行一致性保证，并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。这是一个为块数阅读全文

posted @ 2019-01-13 23:29 力扛九鼎阅读(6728) 评论(0) 推荐(0)

spark使用性能优化记录——二

摘要：之前做了记录了spark的一些配置调优，接下来记录一下本人在开发中用到的一些调优手段。算子调优 MapPartitons提升Map类操作性能： spark中每个task处理一个RDD的partition，一条一条数据--> task function MapPartitons后所有的数据（一个分区阅读全文

posted @ 2019-01-06 15:33 力扛九鼎阅读(886) 评论(0) 推荐(0)

spark使用性能优化记录

摘要：性能调优：总则：加资源加并行度简单直接，调节最优的资源配置 RDD架构和持久化当可分配的资源无法达到更多的时候在考虑性能调优从重剑无锋到花拳绣腿 1.分配资源并行度 RDD架构和缓存 2.shuffle调优 3.spark算子调优 4.JVM调优、广播大变量分配哪些资源：exe 阅读全文

posted @ 2019-01-01 15:04 力扛九鼎阅读(439) 评论(0) 推荐(0)

力扛九鼎

01 2019 档案

公告