2018 年 2月 20 日随笔档案 - shishanyuan

2018年2月20日

摘要：在之前的博文中，我们回顾和总结了2014年Spark在性能提升上所做的努力。本篇博文中，我们将为你介绍性能提升的下一阶段——Tungsten。在2014年，我们目睹了Spark缔造大规模排序的新世界纪录，同时也看到了Spark整个引擎的大幅度提升——从Python到SQL再到机器学习。 Tungst 阅读全文

posted @ 2018-02-20 15:40 shishanyuan 阅读(1193) 评论(0) 推荐(0) 编辑

Spark SQL在100TB上的自适应执行实践（转载）

摘要： Spark SQL是Apache Spark最广泛使用的一个组件，它提供了非常友好的接口来分布式处理结构化数据，在很多应用领域都有成功的生产实践，但是在超大规模集群和数据集上，Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战，英特尔大数据技术团队和百度大数据基础架构部工程师在S 阅读全文

posted @ 2018-02-20 10:59 shishanyuan 阅读(2286) 评论(0) 推荐(0) 编辑

石山园

公告