随笔分类 -  Spark

摘要:概述 当前spark上的管控平台有spark job server,zeppelin,由于spark job server和zeppelin都存在一些缺陷,比如spark job server不支持提交sql,zeppelin不支持jar包方式提交,并且它们都不支持yarn cluster模式,只能 阅读全文
posted @ 2017-02-12 15:24 南国故人(Wall) 阅读(11977) 评论(0) 推荐(0) 编辑
摘要:spark Zeppelin 原理 阅读全文
posted @ 2016-12-18 17:37 南国故人(Wall) 阅读(17435) 评论(0) 推荐(0) 编辑
摘要:spark job server 原理 阅读全文
posted @ 2016-12-17 22:35 南国故人(Wall) 阅读(1765) 评论(0) 推荐(2) 编辑
摘要:spark 永久 持久化 udf 使用方法 原理 阅读全文
posted @ 2016-12-17 14:41 南国故人(Wall) 阅读(9928) 评论(0) 推荐(0) 编辑
摘要:Intellij 加载 spark 源码 阅读全文
posted @ 2016-12-17 14:25 南国故人(Wall) 阅读(713) 评论(0) 推荐(0) 编辑
摘要:spark sql 阅读全文
posted @ 2016-03-07 20:10 南国故人(Wall) 阅读(19837) 评论(0) 推荐(0) 编辑
摘要:Spark SQL允许相关的查询如SQL,HiveQL或Scala运行在spark上。其核心组件是一个新的RDD:SchemaRDD,SchemaRDDs由行对象组成,并包含一个描述此行对象的每一列的数据类型的schema。SchemaRDD和传统关系型数据库的表类似。SchemaRDD可以通过已有... 阅读全文
posted @ 2014-11-30 18:52 南国故人(Wall) 阅读(1531) 评论(0) 推荐(0) 编辑
摘要:RDD详解 原文连接 http://xiguada.org/spark_rdd/ RDD(Resilient Distributed Datasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一 阅读全文
posted @ 2014-11-29 15:07 南国故人(Wall) 阅读(11091) 评论(0) 推荐(0) 编辑
摘要:原文连接 http://xiguada.org/spark/ Spark概述 当前,MapReduce编程模型已经成为主流的分布式编程模型,它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。但是MapReduce也存在一些缺陷,如高延迟、不支持DAG模型、Map与R 阅读全文
posted @ 2014-09-27 16:35 南国故人(Wall) 阅读(18849) 评论(0) 推荐(5) 编辑
摘要:原文连接 http://xiguada.org/spark-streaming-run/ ‎ Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。 本节描述了Spark Streamin 阅读全文
posted @ 2014-08-30 13:32 南国故人(Wall) 阅读(3397) 评论(1) 推荐(0) 编辑
摘要:Spark架构与作业执行流程简介 Local模式 运行Spark最简单的方法是通过Local模式(即伪分布式模式)。 运行命令为:./bin/run-example org.apache.spark.examples.SparkPi local 基于standalone的Spark架构与作业执行流程 阅读全文
posted @ 2014-04-11 13:34 南国故人(Wall) 阅读(25215) 评论(1) 推荐(5) 编辑
摘要:原文见 http://xiguada.org/spark-develop/ 本文基于Spark 0.9.0,由于它基于Scala 2.10,因此必须安装Scala 2.10,否则将无法运行Spark作业。由于在windows环境下不方便执行命令行操作,因此建议在Linux环境下搭建Spark开发环境 阅读全文
posted @ 2014-04-04 17:40 南国故人(Wall) 阅读(1732) 评论(0) 推荐(0) 编辑
摘要:随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处... 阅读全文
posted @ 2014-01-22 17:21 南国故人(Wall) 阅读(6695) 评论(2) 推荐(2) 编辑