spark - 文章分类 - Q_Quan

从源码剖析一个Spark WordCount Job执行的全过程

摘要：WordCount可以说是分布式数据处理框架的”Hello World”，我们可以以它为例来剖析一个Spark Job的执行全过程。我们要执行的代码为： sc.textFile("hdfs://...").flatMap(_.split(" ")).map((_, 1)).reduceByKey( 阅读全文

posted @ 2016-02-18 09:12 Q_Quan 阅读(136) 评论(0) 推荐(0)

Spark1.2.1集群环境搭建——Standalone模式

摘要：机器准备笔者有三台机器，左侧栏为ip，右侧为hostname，三台机器都有一个名为spark的用户。 ? 1 2 3 192.168.248.150 spark-master 192.168.248.153 ubuntu-worker 192.168.248.155 spark-worker1 根阅读全文

posted @ 2016-02-03 16:22 Q_Quan 阅读(488) 评论(0) 推荐(0)

深入浅出数据仓库中SQL性能优化之Hive篇

摘要：摘要：Hive查询生成多个map reduce job，一个map reduce job又有map，reduce，spill，shuffle，sort等多个阶段，所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化，针对MR全局的优化以及针对整个查询的优化。一个Hive查询生成多个Map... 阅读全文

posted @ 2016-01-25 22:07 Q_Quan 阅读(343) 评论(0) 推荐(0)

Spark中的编程模型

摘要：：运行Application的main()函数并创建SparkContext。通常SparkContext代表driver programExecutor: 在集群上获得资源的外部服务（例如 Spark Standalon，Mesos、Yarn）Worker Node：被送到executor上... 阅读全文

posted @ 2016-01-25 10:13 Q_Quan 阅读(220) 评论(0) 推荐(0)

RDD操作详解4——Action算子

摘要：本质上在Actions算子中通过SparkContext执行提交作业的runJob操作，触发了RDD DAG的执行。根据Action算子的输出空间将Action算子进行分类：无输出、 HDFS、 Scala集合和数据类型。无输出foreach对RDD中的每个元素都应用f函数操作，不返回RDD和Arr... 阅读全文

posted @ 2015-09-24 21:43 Q_Quan 阅读(401) 评论(0) 推荐(0)

Spark 开发指南

摘要：目录 [−] 简介接入Spark初始化Spark使用shell弹性分布式数据集RDD并行集合(Parallelized Collections)外部数据集(External Datasets)RDD 的操作基础操作将function对象传给Spark使用键值对转换（transformation）动作... 阅读全文

posted @ 2015-09-11 14:41 Q_Quan 阅读(660) 评论(0) 推荐(0)

Spark Task未序列化(Task not serializable)问题分析

摘要：问题描述及原因分析在编写Spark程序中，由于在map等算子内部使用了外部定义的变量和函数，从而引发Task未序列化问题。然而，Spark算子在计算过程中使用外部变量在许多情形下确实在所难免，比如在filter算子根据外部指定的条件进行过滤，map根据相应的配置进行变换等。为了解决上述Task... 阅读全文

posted @ 2015-09-10 16:32 Q_Quan 阅读(1285) 评论(0) 推荐(0)

文章分类 - spark

公告