Spark - 随笔分类(第3页) - 松伯

Spark RDD简介与运行机制概述

摘要：RDD工作原理：主要分为三部分：创建RDD对象，DAG调度器创建执行计划，Task调度器分配任务并调度Worker开始运行。SparkContext(RDD相关操作)→通过(提交作业)→(遍历RDD拆分stage→生成作业)DAGScheduler→通过（提交任务集）→任务调度管理(TaskSche... 阅读全文

posted @ 2015-10-10 16:13 松伯阅读(1425) 评论(0) 推荐(0)

Spark配置参数调优

摘要：1．配置多个executor 在项目中，由于数据量为几百万甚至千万级别，如果一个executor装载的对象过多，会导致GC很慢。项目中，我们使一个worker节点执行app时启动多个executor，从而加大并发度，解决full GC慢的问题。同时，由于启动了多个exeucute，在内存与核数不变的... 阅读全文

posted @ 2015-10-10 15:47 松伯阅读(1418) 评论(0) 推荐(0)

SparkSQL项目中的应用

摘要：Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上，基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上，可以轻松读取Had... 阅读全文

posted @ 2015-10-10 15:42 松伯阅读(1852) 评论(0) 推荐(0)

SparkSQL相关语句总结

摘要：1.in 不支持子查询 eg. select * from src where key in(select key from test); 支持查询个数 eg. select * from src where key in(1,2,3,4,5); in 40000个耗时25.766秒 ... 阅读全文

posted @ 2015-10-10 15:30 松伯阅读(42005) 评论(0) 推荐(0)

spark单机模式简单搭建

摘要：待安装列表hadoophivescalaspark一.环境变量配置：~/.bash_profilePATH=$PATH:$HOME/binexport PATHJAVA_HOME=/usr/local/jdkexport SCALA_HOME=/usr/local/scalaexport SPARK... 阅读全文

posted @ 2015-10-10 15:02 松伯阅读(815) 评论(0) 推荐(0)

Spark参数配置说明

摘要：1 修改$SPARK_HOME/conf目录下的spark-defaults.conf文件添加以下配置项spark.sql.hive.convertMetastoreParquet falsehive.exec.compress.output false如果spark.sql.hive.conver... 阅读全文

posted @ 2015-10-10 14:56 松伯阅读(12752) 评论(0) 推荐(1)

随笔分类 - Spark