摘要: 本书中所使用到的测试数据、代码和安装包放在百度盘提供 下载 ,链接: https://pan.baidu.com/s/1sXuOC3J-aHEc0E_kVWLqFg#list/path=%2F 另外在百度盘提供本书附录 下载 ,链接: https://pan.baidu.com/s/1sO8NXqr阅读全文
posted @ 2016-12-18 22:06 shishanyuan 阅读(10173) 评论(21) 编辑
摘要: 这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLi阅读全文
posted @ 2015-08-03 16:38 shishanyuan 阅读(108916) 评论(59) 编辑
摘要: Spark调优 由于大部分Spark计算都是在内存中完成的,所以Spark程序的瓶颈可能由集群中任意一种资源导致,如:CPU、网络带宽、或者内存等。最常见的情况是,数据能装进内存,而瓶颈是网络带宽;当然,有时候我们也需要做一些优化调整来减少内存占用,例如将RDD以序列化格式保存(storing RD阅读全文
posted @ 2018-02-28 09:10 shishanyuan 阅读(405) 评论(0) 编辑
摘要: 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作阅读全文
posted @ 2018-02-23 11:32 shishanyuan 阅读(451) 评论(0) 编辑
摘要: 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学阅读全文
posted @ 2018-02-23 08:56 shishanyuan 阅读(432) 评论(0) 编辑
摘要: Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spar阅读全文
posted @ 2018-02-22 14:35 shishanyuan 阅读(250) 评论(0) 编辑
摘要: 这个版本是 Structured Streaming 的一个重要里程碑,因为其终于可以正式在生产环境中使用,实验标签(experimental tag)已经被移除。在流系统中支持对任意状态进行操作;Apache Kafka 0.10 的 streaming 和 batch API支持读和写操作。除了阅读全文
posted @ 2018-02-22 10:29 shishanyuan 阅读(223) 评论(0) 编辑
摘要: 最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相阅读全文
posted @ 2018-02-21 10:11 shishanyuan 阅读(272) 评论(0) 编辑
摘要: Spark SQL是Spark最新和技术最为复杂的组件之一。它支持SQL查询和新的DataFrame API。Spark SQL的核心是Catalyst优化器,它以一种新颖的方式利用高级编程语言特性(例如Scala的模式匹配和quasiquotes)来构建可扩展查询优化器。 我们最近发布了一篇关于S阅读全文
posted @ 2018-02-21 09:03 shishanyuan 阅读(974) 评论(0) 编辑
摘要: Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目一样,Spark的运行离不开JVM的支持。由于Spark立足于内存计算,常常需要在内存中存放大量数据,因此也更依赖JV阅读全文
posted @ 2018-02-21 09:03 shishanyuan 阅读(335) 评论(0) 编辑
摘要: 在之前的博文中,我们回顾和总结了2014年Spark在性能提升上所做的努力。本篇博文中,我们将为你介绍性能提升的下一阶段——Tungsten。在2014年,我们目睹了Spark缔造大规模排序的新世界纪录,同时也看到了Spark整个引擎的大幅度提升——从Python到SQL再到机器学习。 Tungst阅读全文
posted @ 2018-02-20 15:40 shishanyuan 阅读(165) 评论(0) 编辑
摘要: Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战,英特尔大数据技术团队和百度大数据基础架构部工程师在S阅读全文
posted @ 2018-02-20 10:59 shishanyuan 阅读(365) 评论(0) 编辑