shishanyuan - 博客园

[置顶] 《图解Spark：核心技术与案例实战》介绍及书附资源

摘要：本书中所使用到的测试数据、代码、安装包及本书附录放在百度盘提供下载，链接: https://pan.baidu.com/s/1LP6PKGzIWQzF8e-dTklxkg 提取码: it28 为什么要写这本书在过去的十几年里，由于计算机普遍应用和互联网的普及数据呈现了爆发式增长，在这个背景下Do 阅读全文

posted @ 2016-12-18 22:06 shishanyuan 阅读(16262) 评论(29) 推荐(2) 编辑

[置顶] 倾情大奉送--Spark入门实战系列

摘要：这一两年Spark技术很火，自己也凑热闹，反复的试验、研究，有痛苦万分也有欣喜若狂，抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介、编译、部署，再到编程模型、运行架构，最后介绍其组件SparkSQL、Spark Streaming、Spark MLi 阅读全文

posted @ 2015-08-03 16:38 shishanyuan 阅读(128642) 评论(67) 推荐(56) 编辑

2018年2月28日

Spark官方调优文档翻译（转载）

摘要： Spark调优由于大部分Spark计算都是在内存中完成的，所以Spark程序的瓶颈可能由集群中任意一种资源导致，如：CPU、网络带宽、或者内存等。最常见的情况是，数据能装进内存，而瓶颈是网络带宽；当然，有时候我们也需要做一些优化调整来减少内存占用，例如将RDD以序列化格式保存（storing RD 阅读全文

posted @ 2018-02-28 09:10 shishanyuan 阅读(1536) 评论(1) 推荐(2) 编辑

2018年2月23日

Spark性能优化指南——高级篇（转载）

摘要：前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作阅读全文

posted @ 2018-02-23 11:32 shishanyuan 阅读(6684) 评论(0) 推荐(0) 编辑

Spark性能优化指南——基础篇（转载）

摘要：前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学阅读全文

posted @ 2018-02-23 08:56 shishanyuan 阅读(2306) 评论(0) 推荐(1) 编辑

2018年2月22日

Apache Spark 内存管理详解（转载）

摘要： Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spar 阅读全文

posted @ 2018-02-22 14:35 shishanyuan 阅读(1220) 评论(0) 推荐(0) 编辑

Apache Spark 2.2.0新特性介绍（转载）

摘要：这个版本是 Structured Streaming 的一个重要里程碑，因为其终于可以正式在生产环境中使用，实验标签（experimental tag）已经被移除。在流系统中支持对任意状态进行操作；Apache Kafka 0.10 的 streaming 和 batch API支持读和写操作。除了阅读全文

posted @ 2018-02-22 10:29 shishanyuan 阅读(1058) 评论(0) 推荐(0) 编辑

2018年2月21日

SparkSQL – 从0到1认识Catalyst（转载）

摘要：最近想来，大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验，弱势在于分布式领域的高可用性、容错性、扩展性等，假以时日，让其经过一定的改造，比如引入Paxos、raft等，强化自己在分布式领域的能力，相信一定会在大数据系统中占有一席之地。相阅读全文

posted @ 2018-02-21 10:11 shishanyuan 阅读(1325) 评论(1) 推荐(0) 编辑

深入研究Spark SQL的Catalyst优化器（原创翻译）

摘要： Spark SQL是Spark最新和技术最为复杂的组件之一。它支持SQL查询和新的DataFrame API。Spark SQL的核心是Catalyst优化器，它以一种新颖的方式利用高级编程语言特性（例如Scala的模式匹配和quasiquotes）来构建可扩展查询优化器。我们最近发布了一篇关于S 阅读全文

posted @ 2018-02-21 09:03 shishanyuan 阅读(9298) 评论(0) 推荐(0) 编辑

GC调优在Spark应用中的实践（转载）

摘要： Spark是时下非常热门的大数据计算框架，以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库，正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目一样，Spark的运行离不开JVM的支持。由于Spark立足于内存计算，常常需要在内存中存放大量数据，因此也更依赖JV 阅读全文

posted @ 2018-02-21 09:03 shishanyuan 阅读(9484) 评论(0) 推荐(2) 编辑

2018年2月20日

Project Tungsten：让Spark将硬件性能压榨到极限（转载）

摘要：在之前的博文中，我们回顾和总结了2014年Spark在性能提升上所做的努力。本篇博文中，我们将为你介绍性能提升的下一阶段——Tungsten。在2014年，我们目睹了Spark缔造大规模排序的新世界纪录，同时也看到了Spark整个引擎的大幅度提升——从Python到SQL再到机器学习。 Tungst 阅读全文

posted @ 2018-02-20 15:40 shishanyuan 阅读(1193) 评论(0) 推荐(0) 编辑

Spark SQL在100TB上的自适应执行实践（转载）

摘要： Spark SQL是Apache Spark最广泛使用的一个组件，它提供了非常友好的接口来分布式处理结构化数据，在很多应用领域都有成功的生产实践，但是在超大规模集群和数据集上，Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战，英特尔大数据技术团队和百度大数据基础架构部工程师在S 阅读全文

posted @ 2018-02-20 10:59 shishanyuan 阅读(2286) 评论(0) 推荐(0) 编辑

石山园

公告