随笔分类 -  大数据 / spark

摘要:[toc] 基础 概述 + Spark计算平台有两个重要角色,Driver和executor + Driver + Driver充当Application的master角色,负责任务执行计划生成和任务分发及调度; + Driver负责生成逻辑查询计划、物理查询计划和把任务派发给executor + 阅读全文
posted @ 2019-09-20 09:53 bigbigtree 阅读(2103) 评论(0) 推荐(1)
摘要:[toc] 版本 spark 2.2.0 起点 + Spark thrift server复用了Hive Server2的源码,插入了自己的覆盖的方法。 + 整个过程里面需要穿插着Hive和Spark的源码。 + 整个流程是从Beeline开始的,Beeline属于是Hive的源码,下面开始进入流程 阅读全文
posted @ 2018-04-18 10:30 bigbigtree 阅读(1215) 评论(0) 推荐(0)
摘要:业务背景 技术选型 Kafka Producer SparkStreaming 接收Kafka数据流 基于Receiver接收数据 直连方式读取kafka数据 Direct连接示例 使用Zookeeper维护KafkaOffset示例 SparkStreaming 数据处理 调优 合理的批处理时间( 阅读全文
posted @ 2017-05-26 13:01 bigbigtree 阅读(6464) 评论(0) 推荐(0)
摘要:Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数 通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量 通过log4j.properties配置日志属性 Spark属性 Spark属性可以为每个应用分别进行配置, 阅读全文
posted @ 2016-07-19 16:20 bigbigtree 阅读(18497) 评论(0) 推荐(0)
摘要:Spark版本:1.6.2 简介:本文档简短的介绍了spark如何在集群中运行,便于理解spark相关组件。可以通过阅读应用提交文档了解如何在集群中提交应用。 组件 spark应用程序通过主程序的SparkContext对象进行协调,在集群上通过一系列独立的处理流程运行。为了便于迁移,SparkCo 阅读全文
posted @ 2016-07-17 21:32 bigbigtree 阅读(498) 评论(0) 推荐(0)
摘要:Spark版本:1.6.2 spark-submit提供了在所有集群平台提交应用的统一接口,你不需要因为平台的迁移改变配置。Spark支持三种集群:Standalone、Apache Mesos和Hadoop Yarn。 绑定应用程序依赖库 如果你的应用程序依赖其他项目,需要将其一起打包,打包时需要 阅读全文
posted @ 2016-07-14 11:46 bigbigtree 阅读(2007) 评论(0) 推荐(0)
摘要:本章主要介绍Spark如何处理键值对。K-V RDDs通常用于聚集操作,使用相同的key聚集或者对不同的RDD进行聚集。部分情况下,需要将spark中的数据记录转换为键值对然后进行聚集处理。我们也会对键值对RDD的高级特性——分区进行讨论,用户可以控制RDD在节点间的布局,确保数据在同一机器上面,减 阅读全文
posted @ 2016-07-07 15:03 bigbigtree 阅读(1351) 评论(0) 推荐(0)