Spark - 文章分类 - ostin

Spark闭包与序列化

摘要：Spark闭包与序列化 Spark闭包与序列化本文原文出处: http://blog.csdn.net/bluishglc/article/details/50945032 严禁任何形式的转载，否则将委托CSDN官方维护权益！ Spark的官方文档再三强调那些将要作用到RDD上的操作，不管它们是一阅读全文

posted @ 2017-08-02 21:43 ostin 阅读(233) 评论(0) 推荐(0)

Spark RDD基本操作--API介绍和实例

摘要：Spark的主要操作对象是RDD，RDD可以通过多种方式灵活创建，可通过导入外部数据源建立，或者从其他的RDD转化而来。在Spark程序中必须创建一个SparkContext对象，该对象是Spark程序的入口，负责创建RDD、启动任务等。在启动Spark Shell后，该对象会自动创建，可以通过变量阅读全文

posted @ 2017-07-29 11:09 ostin 阅读(315) 评论(0) 推荐(0)

Spark的部署和应用方式

摘要：一、Spark三种部署方式 Spark支持三种不同类型的部署方式，包括：(1)Standalone（类似于MapReduce1.0，slot为资源分配单位）(2)Spark on Mesos（和Spark有血缘关系，更好支持Mesos）(3)Spark on YARN 二、从Hadoop+Storm 阅读全文

posted @ 2017-07-29 10:03 ostin 阅读(846) 评论(0) 推荐(0)

SparkSQL

摘要：一、从Shark说起 Shark即Hive on Spark，为了实现与Hive兼容，Shark在HiveQL方面重用了Hive中HiveQL的解析、逻辑执行计划翻译、执行计划优化等逻辑。 Shark和Hive区别仅将物理执行计划从MapReduce作业替换成了Spark作业，通过Hive的Hive 阅读全文

posted @ 2017-07-22 20:19 ostin 阅读(551) 评论(0) 推荐(0)

SparkSql实战

摘要：3、SparkSQL CLI CLI（Command-Line Interface，命令行界面）是指可在用户提示符下键入可执行指令的界面，它通常不支持鼠标，用户通过键盘输入指令，计算机接收到指令后予以执行。Spark CLI指的是使用命令界面直接输入SQL命令，然后发送到Spark集群进行执行，在界阅读全文

posted @ 2017-07-22 20:18 ostin 阅读(246) 评论(0) 推荐(0)

Spark运行架构

摘要：一、基本概念 RDD：是Resillient Distributed Dataset（弹性分布式数据集）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型数据从硬盘读取后封装为RDD，即从硬盘读取数据后存放在分布式内存中(可能跨节点内存)。一个RDD可包含多个分区。RDD分区中的阅读全文

posted @ 2017-07-22 16:09 ostin 阅读(630) 评论(0) 推荐(0)

Spark生态系统

摘要：一、Spark设计理念在实际应用中，大数据处理主要包括以下三个类型：复杂的批量数据处理：通常时间跨度在数十分钟到数小时之间基于历史数据的交互式查询：通常时间跨度在数十秒到数分钟之间基于实时数据流的数据处理：通常时间跨度在数百毫秒到数秒之间当同时存在以上三种场景时，就需要同时部署三种不同的软件比阅读全文

posted @ 2017-07-18 22:25 ostin 阅读(607) 评论(0) 推荐(0)

Spark概述

摘要：一、Spark简介 Apache软件基金会最重要的三大分布式计算系统开源项目之一（Hadoop、Spark、Storm） Spark在2014年打破了Hadoop保持的基准排序纪录Spark/206个节点/23分钟/100TB数据Hadoop/2000个节点/72分钟/100TB数据Spark用十分阅读全文

posted @ 2017-07-18 22:20 ostin 阅读(421) 评论(0) 推荐(0)

ostin

文章分类 - Spark