随笔分类 -  28.Databricks博客翻译

摘要:这个版本是 Structured Streaming 的一个重要里程碑,因为其终于可以正式在生产环境中使用,实验标签(experimental tag)已经被移除。在流系统中支持对任意状态进行操作;Apache Kafka 0.10 的 streaming 和 batch API支持读和写操作。除了 阅读全文
posted @ 2018-02-22 10:29 shishanyuan 阅读(1058) 评论(0) 推荐(0) 编辑
摘要:Spark SQL是Spark最新和技术最为复杂的组件之一。它支持SQL查询和新的DataFrame API。Spark SQL的核心是Catalyst优化器,它以一种新颖的方式利用高级编程语言特性(例如Scala的模式匹配和quasiquotes)来构建可扩展查询优化器。 我们最近发布了一篇关于S 阅读全文
posted @ 2018-02-21 09:03 shishanyuan 阅读(9440) 评论(0) 推荐(0) 编辑
摘要:Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目一样,Spark的运行离不开JVM的支持。由于Spark立足于内存计算,常常需要在内存中存放大量数据,因此也更依赖JV 阅读全文
posted @ 2018-02-21 09:03 shishanyuan 阅读(9540) 评论(0) 推荐(2) 编辑
摘要:在之前的博文中,我们回顾和总结了2014年Spark在性能提升上所做的努力。本篇博文中,我们将为你介绍性能提升的下一阶段——Tungsten。在2014年,我们目睹了Spark缔造大规模排序的新世界纪录,同时也看到了Spark整个引擎的大幅度提升——从Python到SQL再到机器学习。 Tungst 阅读全文
posted @ 2018-02-20 15:40 shishanyuan 阅读(1201) 评论(0) 推荐(0) 编辑
摘要:Apache Spark 2.2最近引入了高级的基于成本的优化器框架用于收集并均衡不同的列数据的统计工作 (例如., 基(cardinality)、唯一值的数量、空值、最大最小值、平均/最大长度,等等)来改进查询类作业的执行计划。均衡这些作业帮助Spark在选取最优查询计划时做出更好决定。这些优化的 阅读全文
posted @ 2018-02-19 11:20 shishanyuan 阅读(2893) 评论(0) 推荐(0) 编辑
摘要:我们兴奋的宣布Databricks缓存的通用可用性,作为统一分析平台一部分的 Databricks 运行时特性,它可以将Spark工作负载的扫描速度提升10倍,并且这种改变无需任何代码修改。 1、在本博客中,我们将介绍这个新特性的两个主要特点:易用性和性能。 2、不同于Spark显示缓存,Datab 阅读全文
posted @ 2018-02-04 22:28 shishanyuan 阅读(1762) 评论(0) 推荐(0) 编辑
摘要:我们很荣幸地宣布,自7月26日起Databricks开始提供Apache Spark 2.0的下载,这个版本是基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点。 本文总结了Spark 2.0的三大主题:更简单、更快速、更智能,另有Spark 2.0内容的文章汇总介绍了更 阅读全文
posted @ 2016-07-29 09:59 shishanyuan 阅读(3010) 评论(4) 推荐(2) 编辑