27.Spark精彩文章 - 随笔分类 - shishanyuan

Spark官方调优文档翻译（转载）

摘要：Spark调优由于大部分Spark计算都是在内存中完成的，所以Spark程序的瓶颈可能由集群中任意一种资源导致，如：CPU、网络带宽、或者内存等。最常见的情况是，数据能装进内存，而瓶颈是网络带宽；当然，有时候我们也需要做一些优化调整来减少内存占用，例如将RDD以序列化格式保存（storing RD 阅读全文

posted @ 2018-02-28 09:10 shishanyuan 阅读(1543) 评论(1) 推荐(2) 编辑

Spark性能优化指南——高级篇（转载）

摘要：前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作阅读全文

posted @ 2018-02-23 11:32 shishanyuan 阅读(6695) 评论(0) 推荐(0) 编辑

Spark性能优化指南——基础篇（转载）

摘要：前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学阅读全文

posted @ 2018-02-23 08:56 shishanyuan 阅读(2312) 评论(0) 推荐(1) 编辑

Apache Spark 内存管理详解（转载）

摘要：Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spar 阅读全文

posted @ 2018-02-22 14:35 shishanyuan 阅读(1225) 评论(0) 推荐(0) 编辑

SparkSQL – 从0到1认识Catalyst（转载）

摘要：最近想来，大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验，弱势在于分布式领域的高可用性、容错性、扩展性等，假以时日，让其经过一定的改造，比如引入Paxos、raft等，强化自己在分布式领域的能力，相信一定会在大数据系统中占有一席之地。相阅读全文

posted @ 2018-02-21 10:11 shishanyuan 阅读(1327) 评论(1) 推荐(0) 编辑

Spark SQL在100TB上的自适应执行实践（转载）

摘要：Spark SQL是Apache Spark最广泛使用的一个组件，它提供了非常友好的接口来分布式处理结构化数据，在很多应用领域都有成功的生产实践，但是在超大规模集群和数据集上，Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战，英特尔大数据技术团队和百度大数据基础架构部工程师在S 阅读全文

posted @ 2018-02-20 10:59 shishanyuan 阅读(2297) 评论(0) 推荐(0) 编辑

石山园

随笔分类 - 27.Spark精彩文章

公告