文章分类 -  Spark

Spark闭包与序列化
摘要:Spark闭包与序列化 Spark闭包与序列化 本文原文出处: http://blog.csdn.net/bluishglc/article/details/50945032 严禁任何形式的转载,否则将委托CSDN官方维护权益! Spark的官方文档再三强调那些将要作用到RDD上的操作,不管它们是一 阅读全文

posted @ 2017-08-02 21:43 ostin 阅读(232) 评论(0) 推荐(0)

Spark RDD基本操作--API介绍和实例
摘要:Spark的主要操作对象是RDD,RDD可以通过多种方式灵活创建,可通过导入外部数据源建立,或者从其他的RDD转化而来。在Spark程序中必须创建一个SparkContext对象,该对象是Spark程序的入口,负责创建RDD、启动任务等。在启动Spark Shell后,该对象会自动创建,可以通过变量 阅读全文

posted @ 2017-07-29 11:09 ostin 阅读(314) 评论(0) 推荐(0)

Spark的部署和应用方式
摘要:一、Spark三种部署方式 Spark支持三种不同类型的部署方式,包括:(1)Standalone(类似于MapReduce1.0,slot为资源分配单位)(2)Spark on Mesos(和Spark有血缘关系,更好支持Mesos)(3)Spark on YARN 二、从Hadoop+Storm 阅读全文

posted @ 2017-07-29 10:03 ostin 阅读(844) 评论(0) 推荐(0)

SparkSQL
摘要:一、从Shark说起 Shark即Hive on Spark,为了实现与Hive兼容,Shark在HiveQL方面重用了Hive中HiveQL的解析、逻辑执行计划翻译、执行计划优化等逻辑。 Shark和Hive区别仅将物理执行计划从MapReduce作业替换成了Spark作业,通过Hive的Hive 阅读全文

posted @ 2017-07-22 20:19 ostin 阅读(549) 评论(0) 推荐(0)

SparkSql实战
摘要:3、SparkSQL CLI CLI(Command-Line Interface,命令行界面)是指可在用户提示符下键入可执行指令的界面,它通常不支持鼠标,用户通过键盘输入指令,计算机接收到指令后予以执行。Spark CLI指的是使用命令界面直接输入SQL命令,然后发送到Spark集群进行执行,在界 阅读全文

posted @ 2017-07-22 20:18 ostin 阅读(244) 评论(0) 推荐(0)

Spark运行架构
摘要:一、基本概念 RDD:是Resillient Distributed Dataset(弹性分布式数据集)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型 数据从硬盘读取后封装为RDD,即从硬盘读取数据后存放在分布式内存中(可能跨节点内存)。一个RDD可包含多个分区。RDD分区中的 阅读全文

posted @ 2017-07-22 16:09 ostin 阅读(624) 评论(0) 推荐(0)

Spark生态系统
摘要:一、Spark设计理念 在实际应用中,大数据处理主要包括以下三个类型: 复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间 当同时存在以上三种场景时,就需要同时部署三种不同的软件比 阅读全文

posted @ 2017-07-18 22:25 ostin 阅读(606) 评论(0) 推荐(0)

Spark概述
摘要:一、Spark简介 Apache软件基金会最重要的三大分布式计算系统开源项目之一(Hadoop、Spark、Storm) Spark在2014年打破了Hadoop保持的基准排序纪录Spark/206个节点/23分钟/100TB数据Hadoop/2000个节点/72分钟/100TB数据Spark用十分 阅读全文

posted @ 2017-07-18 22:20 ostin 阅读(420) 评论(0) 推荐(0)