随笔分类 -  Spark

上一页 1 2 3
Spark RDD简介与运行机制概述
摘要:RDD工作原理:主要分为三部分:创建RDD对象,DAG调度器创建执行计划,Task调度器分配任务并调度Worker开始运行。SparkContext(RDD相关操作)→通过(提交作业)→(遍历RDD拆分stage→生成作业)DAGScheduler→通过(提交任务集)→任务调度管理(TaskSche... 阅读全文
posted @ 2015-10-10 16:13 松伯 阅读(1425) 评论(0) 推荐(0)
Spark配置参数调优
摘要:1.配置多个executor 在项目中,由于数据量为几百万甚至千万级别,如果一个executor装载的对象过多,会导致GC很慢。项目中,我们使一个worker节点执行app时启动多个executor,从而加大并发度,解决full GC慢的问题。同时,由于启动了多个exeucute,在内存与核数不变的... 阅读全文
posted @ 2015-10-10 15:47 松伯 阅读(1418) 评论(0) 推荐(0)
SparkSQL项目中的应用
摘要:Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上,基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上,可以轻松读取Had... 阅读全文
posted @ 2015-10-10 15:42 松伯 阅读(1852) 评论(0) 推荐(0)
SparkSQL相关语句总结
摘要:1.in 不支持子查询 eg. select * from src where key in(select key from test); 支持查询个数 eg. select * from src where key in(1,2,3,4,5); in 40000个 耗时25.766秒 ... 阅读全文
posted @ 2015-10-10 15:30 松伯 阅读(42005) 评论(0) 推荐(0)
spark单机模式简单搭建
摘要:待安装列表hadoophivescalaspark一.环境变量配置:~/.bash_profilePATH=$PATH:$HOME/binexport PATHJAVA_HOME=/usr/local/jdkexport SCALA_HOME=/usr/local/scalaexport SPARK... 阅读全文
posted @ 2015-10-10 15:02 松伯 阅读(815) 评论(0) 推荐(0)
Spark参数配置说明
摘要:1 修改$SPARK_HOME/conf目录下的spark-defaults.conf文件添加以下配置项spark.sql.hive.convertMetastoreParquet falsehive.exec.compress.output false如果spark.sql.hive.conver... 阅读全文
posted @ 2015-10-10 14:56 松伯 阅读(12752) 评论(0) 推荐(1)

上一页 1 2 3