spark - 随笔分类 - bigbigtree

spark基础知识汇总

摘要：[toc] 基础概述 + Spark计算平台有两个重要角色，Driver和executor + Driver + Driver充当Application的master角色，负责任务执行计划生成和任务分发及调度； + Driver负责生成逻辑查询计划、物理查询计划和把任务派发给executor + 阅读全文

posted @ 2019-09-20 09:53 bigbigtree 阅读(2110) 评论(0) 推荐(1)

SparkThriftServer 源码分析

摘要：[toc] 版本 spark 2.2.0 起点 + Spark thrift server复用了Hive Server2的源码，插入了自己的覆盖的方法。 + 整个过程里面需要穿插着Hive和Spark的源码。 + 整个流程是从Beeline开始的，Beeline属于是Hive的源码，下面开始进入流程阅读全文

posted @ 2018-04-18 10:30 bigbigtree 阅读(1221) 评论(0) 推荐(0)

SparkStreaming+Kafka 处理实时WIFI数据

摘要：业务背景技术选型 Kafka Producer SparkStreaming 接收Kafka数据流基于Receiver接收数据直连方式读取kafka数据 Direct连接示例使用Zookeeper维护KafkaOffset示例 SparkStreaming 数据处理调优合理的批处理时间（阅读全文

posted @ 2017-05-26 13:01 bigbigtree 阅读(6469) 评论(0) 推荐(0)

Spark 官方文档（4）——Configuration配置

摘要：Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量通过log4j.properties配置日志属性 Spark属性 Spark属性可以为每个应用分别进行配置，阅读全文

posted @ 2016-07-19 16:20 bigbigtree 阅读(18512) 评论(0) 推荐(0)

Spark 官方文档（2）——集群模式

摘要：Spark版本：1.6.2 简介：本文档简短的介绍了spark如何在集群中运行，便于理解spark相关组件。可以通过阅读应用提交文档了解如何在集群中提交应用。组件 spark应用程序通过主程序的SparkContext对象进行协调，在集群上通过一系列独立的处理流程运行。为了便于迁移，SparkCo 阅读全文

posted @ 2016-07-17 21:32 bigbigtree 阅读(499) 评论(0) 推荐(0)

spark 官方文档（1）——提交应用程序

摘要：Spark版本：1.6.2 spark-submit提供了在所有集群平台提交应用的统一接口，你不需要因为平台的迁移改变配置。Spark支持三种集群：Standalone、Apache Mesos和Hadoop Yarn。绑定应用程序依赖库如果你的应用程序依赖其他项目，需要将其一起打包，打包时需要阅读全文

posted @ 2016-07-14 11:46 bigbigtree 阅读(2018) 评论(0) 推荐(0)

Learning Spark 第四章——键值对处理

摘要：本章主要介绍Spark如何处理键值对。K-V RDDs通常用于聚集操作，使用相同的key聚集或者对不同的RDD进行聚集。部分情况下，需要将spark中的数据记录转换为键值对然后进行聚集处理。我们也会对键值对RDD的高级特性——分区进行讨论，用户可以控制RDD在节点间的布局，确保数据在同一机器上面，减阅读全文

posted @ 2016-07-07 15:03 bigbigtree 阅读(1352) 评论(0) 推荐(0)

bigbigtree

随笔分类 - 大数据 / spark

公告