Spark性能优化指南——高级篇
摘要:前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作
阅读全文
spark安装
摘要:spark的安装 1. 下载并解压 在官网:https://archive.apache.org/dist/spark/ 下载所需版本的 spark,这里我下载的版本为2.3.1,下载后进行解压(Linux文件类型:*.tar.gz和*.tgz 用 tar –xzf 解压): 1 [root@lin
阅读全文
1、DataFrame、Dataset、SparkSession
摘要:一,介绍,对比与发展:Dataframe,Dataset DataFrame:是较早用于管理结构化数据的数据类型,在Spark 2.0版本之前,是分析结构化数据的主角 DataFrame将数据通过Schema模式组织到一个二维表格中(就像关系型数据库的表一样),每一列数据都存在列名。 在数据分析时,
阅读全文