28.Databricks博客翻译 - 随笔分类 - shishanyuan

Apache Spark 2.2.0新特性介绍（转载）

摘要：这个版本是 Structured Streaming 的一个重要里程碑，因为其终于可以正式在生产环境中使用，实验标签（experimental tag）已经被移除。在流系统中支持对任意状态进行操作；Apache Kafka 0.10 的 streaming 和 batch API支持读和写操作。除了阅读全文

posted @ 2018-02-22 10:29 shishanyuan 阅读(1058) 评论(0) 推荐(0) 编辑

深入研究Spark SQL的Catalyst优化器（原创翻译）

摘要：Spark SQL是Spark最新和技术最为复杂的组件之一。它支持SQL查询和新的DataFrame API。Spark SQL的核心是Catalyst优化器，它以一种新颖的方式利用高级编程语言特性（例如Scala的模式匹配和quasiquotes）来构建可扩展查询优化器。我们最近发布了一篇关于S 阅读全文

posted @ 2018-02-21 09:03 shishanyuan 阅读(9440) 评论(0) 推荐(0) 编辑

GC调优在Spark应用中的实践（转载）

摘要：Spark是时下非常热门的大数据计算框架，以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库，正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目一样，Spark的运行离不开JVM的支持。由于Spark立足于内存计算，常常需要在内存中存放大量数据，因此也更依赖JV 阅读全文

posted @ 2018-02-21 09:03 shishanyuan 阅读(9540) 评论(0) 推荐(2) 编辑

Project Tungsten：让Spark将硬件性能压榨到极限（转载）

摘要：在之前的博文中，我们回顾和总结了2014年Spark在性能提升上所做的努力。本篇博文中，我们将为你介绍性能提升的下一阶段——Tungsten。在2014年，我们目睹了Spark缔造大规模排序的新世界纪录，同时也看到了Spark整个引擎的大幅度提升——从Python到SQL再到机器学习。 Tungst 阅读全文

posted @ 2018-02-20 15:40 shishanyuan 阅读(1201) 评论(0) 推荐(0) 编辑

Apache Spark 2.2中基于成本的优化器（CBO）（转载）

摘要：Apache Spark 2.2最近引入了高级的基于成本的优化器框架用于收集并均衡不同的列数据的统计工作 (例如., 基（cardinality）、唯一值的数量、空值、最大最小值、平均/最大长度，等等）来改进查询类作业的执行计划。均衡这些作业帮助Spark在选取最优查询计划时做出更好决定。这些优化的阅读全文

posted @ 2018-02-19 11:20 shishanyuan 阅读(2893) 评论(0) 推荐(0) 编辑

Databricks缓存提升Spark性能--为什么NVMe固态硬盘能够提升10倍缓存性能（原创翻译）

摘要：我们兴奋的宣布Databricks缓存的通用可用性，作为统一分析平台一部分的 Databricks 运行时特性，它可以将Spark工作负载的扫描速度提升10倍，并且这种改变无需任何代码修改。 1、在本博客中，我们将介绍这个新特性的两个主要特点：易用性和性能。 2、不同于Spark显示缓存，Datab 阅读全文

posted @ 2018-02-04 22:28 shishanyuan 阅读(1762) 评论(0) 推荐(0) 编辑

千呼万唤始出来：Apache Spark2.0正式发布

摘要：我们很荣幸地宣布，自7月26日起Databricks开始提供Apache Spark 2.0的下载，这个版本是基于社区在过去两年的经验总结而成，不但加入了用户喜爱的功能，也修复了之前的痛点。本文总结了Spark 2.0的三大主题：更简单、更快速、更智能，另有Spark 2.0内容的文章汇总介绍了更阅读全文

posted @ 2016-07-29 09:59 shishanyuan 阅读(3010) 评论(4) 推荐(2) 编辑

石山园

随笔分类 - 28.Databricks博客翻译

公告