随笔分类 - Spark

摘要: 概述 当前spark上的管控平台有spark job server,zeppelin,由于spark job server和zeppelin都存在一些缺陷,比如spark job server不支持提交sql,zeppelin不支持jar包方式提交,并且它们都不支持yarn cluster模式,只能阅读全文
posted @ 2017-02-12 15:24 南国故人(Wall) 阅读(403) | 评论 (0) 编辑
摘要: spark Zeppelin 原理阅读全文
posted @ 2016-12-18 17:37 南国故人(Wall) 阅读(678) | 评论 (0) 编辑
摘要: spark job server 原理阅读全文
posted @ 2016-12-17 22:35 南国故人(Wall) 阅读(147) | 评论 (0) 编辑
摘要: spark 永久 持久化 udf 使用方法 原理阅读全文
posted @ 2016-12-17 14:41 南国故人(Wall) 阅读(523) | 评论 (0) 编辑
摘要: Intellij 加载 spark 源码阅读全文
posted @ 2016-12-17 14:25 南国故人(Wall) 阅读(36) | 评论 (0) 编辑
摘要: Spark SQL允许相关的查询如SQL,HiveQL或Scala运行在spark上。其核心组件是一个新的RDD:SchemaRDD,SchemaRDDs由行对象组成,并包含一个描述此行对象的每一列的数据类型的schema。SchemaRDD和传统关系型数据库的表类似。SchemaRDD可以通过已有...阅读全文
posted @ 2014-11-30 18:52 南国故人(Wall) 阅读(949) | 评论 (0) 编辑
摘要: RDD详解 原文连接 http://xiguada.org/spark_rdd/ RDD(Resilient Distributed Datasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一阅读全文
posted @ 2014-11-29 15:07 南国故人(Wall) 阅读(3551) | 评论 (0) 编辑
摘要: 原文连接 http://xiguada.org/spark/ Spark概述 当前,MapReduce编程模型已经成为主流的分布式编程模型,它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。但是MapReduce也存在一些缺陷,如高延迟、不支持DAG模型、Map与R阅读全文
posted @ 2014-09-27 16:35 南国故人(Wall) 阅读(3347) | 评论 (0) 编辑
摘要: 原文连接 http://xiguada.org/spark-streaming-run/ ‎ Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。 本节描述了Spark Streamin阅读全文
posted @ 2014-08-30 13:32 南国故人(Wall) 阅读(1046) | 评论 (1) 编辑
摘要: 原文连接 http://xiguada.org/spark_architecture/ Spark架构与作业执行流程简介 Local模式 运行Spark最简单的方法是通过Local模式(即伪分布式模式)。 运行命令为:./bin/run-example org.apache.spark.exampl阅读全文
posted @ 2014-04-11 13:34 南国故人(Wall) 阅读(4896) | 评论 (1) 编辑
摘要: 原文见 http://xiguada.org/spark-develop/ 本文基于Spark 0.9.0,由于它基于Scala 2.10,因此必须安装Scala 2.10,否则将无法运行Spark作业。由于在windows环境下不方便执行命令行操作,因此建议在Linux环境下搭建Spark开发环境阅读全文
posted @ 2014-04-04 17:40 南国故人(Wall) 阅读(1331) | 评论 (0) 编辑
摘要: 随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处...阅读全文
posted @ 2014-01-22 17:21 南国故人(Wall) 阅读(4357) | 评论 (2) 编辑