Spark - 随笔分类 - 南国故人（Wall）

Livy原理详解

摘要：概述当前spark上的管控平台有spark job server，zeppelin，由于spark job server和zeppelin都存在一些缺陷，比如spark job server不支持提交sql，zeppelin不支持jar包方式提交，并且它们都不支持yarn cluster模式，只能阅读全文

posted @ 2017-02-12 15:24 南国故人（Wall）阅读(11977) 评论(0) 推荐(0) 编辑

Zeppelin原理简介

摘要：spark Zeppelin 原理阅读全文

posted @ 2016-12-18 17:37 南国故人（Wall）阅读(17435) 评论(0) 推荐(0) 编辑

Spark job server原理初探

摘要：spark job server 原理阅读全文

posted @ 2016-12-17 22:35 南国故人（Wall）阅读(1765) 评论(0) 推荐(2) 编辑

SparkSQL UDF使用方法与原理详解

摘要：spark 永久持久化 udf 使用方法原理阅读全文

posted @ 2016-12-17 14:41 南国故人（Wall）阅读(9928) 评论(0) 推荐(0) 编辑

使用Intellij加载Spark源代码

摘要：Intellij 加载 spark 源码阅读全文

posted @ 2016-12-17 14:25 南国故人（Wall）阅读(713) 评论(0) 推荐(0) 编辑

Spark Shuffle 堆外内存溢出问题与解决（Shuffle通信原理）

摘要：spark sql 阅读全文

posted @ 2016-03-07 20:10 南国故人（Wall）阅读(19837) 评论(0) 推荐(0) 编辑

Spark SQL 代码简要阅读（基于Spark 1.1.0）

摘要：Spark SQL允许相关的查询如SQL，HiveQL或Scala运行在spark上。其核心组件是一个新的RDD：SchemaRDD，SchemaRDDs由行对象组成，并包含一个描述此行对象的每一列的数据类型的schema。SchemaRDD和传统关系型数据库的表类似。SchemaRDD可以通过已有... 阅读全文

posted @ 2014-11-30 18:52 南国故人（Wall）阅读(1531) 评论(0) 推荐(0) 编辑

RDD原理与详解

摘要：RDD详解原文连接 http://xiguada.org/spark_rdd/ RDD（Resilient Distributed Datasets弹性分布式数据集），是spark中最重要的概念，可以简单的把RDD理解成一个提供了许多操作接口的数据集合，和一般数据集不同的是，其实际数据分布存储于一阅读全文

posted @ 2014-11-29 15:07 南国故人（Wall）阅读(11091) 评论(0) 推荐(0) 编辑

Spark详解

摘要：原文连接 http://xiguada.org/spark/ Spark概述当前，MapReduce编程模型已经成为主流的分布式编程模型，它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。但是MapReduce也存在一些缺陷，如高延迟、不支持DAG模型、Map与R 阅读全文

posted @ 2014-09-27 16:35 南国故人（Wall）阅读(18849) 评论(0) 推荐(5) 编辑

Spark Streaming 执行流程

摘要：原文连接 http://xiguada.org/spark-streaming-run/ ‎ Spark Streaming 是基于spark的流式批处理引擎，其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。本节描述了Spark Streamin 阅读全文

posted @ 2014-08-30 13:32 南国故人（Wall）阅读(3397) 评论(1) 推荐(0) 编辑

Spark架构与作业执行流程简介

摘要：Spark架构与作业执行流程简介 Local模式运行Spark最简单的方法是通过Local模式（即伪分布式模式）。运行命令为：./bin/run-example org.apache.spark.examples.SparkPi local 基于standalone的Spark架构与作业执行流程阅读全文

posted @ 2014-04-11 13:34 南国故人（Wall）阅读(25215) 评论(1) 推荐(5) 编辑

Spark 开发环境搭建

摘要：原文见 http://xiguada.org/spark-develop/ 本文基于Spark 0.9.0，由于它基于Scala 2.10，因此必须安装Scala 2.10，否则将无法运行Spark作业。由于在windows环境下不方便执行命令行操作，因此建议在Linux环境下搭建Spark开发环境阅读全文

posted @ 2014-04-04 17:40 南国故人（Wall）阅读(1732) 评论(0) 推荐(0) 编辑

Spark Streaming实时计算框架介绍

摘要：随着大数据的发展，人们对大数据的处理要求也越来越高，原有的批处理框架MapReduce适合离线计算，却无法满足实时性要求较高的业务，如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架，通过它提供的丰富的API、基于内存的高速执行引擎，用户可以结合流式、批处... 阅读全文

posted @ 2014-01-22 17:21 南国故人（Wall）阅读(6695) 评论(2) 推荐(2) 编辑

南国故人

随笔分类 - Spark

公告