文章分类 -  spark

摘要:WordCount可以说是分布式数据处理框架的”Hello World”,我们可以以它为例来剖析一个Spark Job的执行全过程。 我们要执行的代码为: sc.textFile("hdfs://...").flatMap(_.split(" ")).map((_, 1)).reduceByKey( 阅读全文
posted @ 2016-02-18 09:12 Q_Quan 阅读(136) 评论(0) 推荐(0)
摘要:机器准备 笔者有三台机器,左侧栏为ip,右侧为hostname,三台机器都有一个名为spark的用户。 ? 1 2 3 192.168.248.150 spark-master 192.168.248.153 ubuntu-worker 192.168.248.155 spark-worker1 根 阅读全文
posted @ 2016-02-03 16:22 Q_Quan 阅读(488) 评论(0) 推荐(0)
摘要:摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化, 针对MR全局的优化以及针对整个查询的优化。一个Hive查询生成多个Map... 阅读全文
posted @ 2016-01-25 22:07 Q_Quan 阅读(343) 评论(0) 推荐(0)
摘要::运行Application的main()函数并创建SparkContext。通常SparkContext代表driver programExecutor: 在集群上获得资源的外部服务(例如 Spark Standalon,Mesos、Yarn)Worker Node:被送到executor上... 阅读全文
posted @ 2016-01-25 10:13 Q_Quan 阅读(220) 评论(0) 推荐(0)
摘要:本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。无输出foreach对RDD中的每个元素都应用f函数操作,不返回RDD和Arr... 阅读全文
posted @ 2015-09-24 21:43 Q_Quan 阅读(401) 评论(0) 推荐(0)
摘要:目录 [−] 简介接入Spark初始化Spark使用shell弹性分布式数据集RDD并行集合(Parallelized Collections)外部数据集(External Datasets)RDD 的操作基础操作将function对象传给Spark使用键值对转换(transformation)动作... 阅读全文
posted @ 2015-09-11 14:41 Q_Quan 阅读(660) 评论(0) 推荐(0)
摘要:问题描述及原因分析 在编写Spark程序中,由于在map等算子内部使用了外部定义的变量和函数,从而引发Task未序列化问题。然而,Spark算子在计算过程中使用外部 变量在许多情形下确实在所难免,比如在filter算子根据外部指定的条件进行过滤,map根据相应的配置进行变换等。为了解决上述Task... 阅读全文
posted @ 2015-09-10 16:32 Q_Quan 阅读(1285) 评论(0) 推荐(0)