随笔分类 -  spark

摘要:目标 掌握sparksql操作jdbc数据源 掌握sparksql保存数据操作 掌握sparksql整合hive 要点 1. jdbc数据源 spark sql可以通过 JDBC 从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数 阅读全文
posted @ 2019-11-13 20:52 小码农成长记 阅读(345) 评论(0) 推荐(0)
摘要:目标 掌握sparksql底层原理 掌握sparksql中DataFrame和DataSet的数据结构和使用方式 掌握通过sparksql开发应用程序 要点 1.sparksql概述 1.1 sparksql的前世今生 Shark是专门针对于spark的构建大规模数据仓库系统的一个框架 Shark与 阅读全文
posted @ 2019-11-13 20:30 小码农成长记 阅读(270) 评论(0) 推荐(0)
摘要:围绕spark的其他特性和应用。主要包括以下几个方面 spark自定义分区 spark中的共享变量 spark程序的序列化问题 spark中的application/job/stage/task之间的关系 spark on yarn原理和机制 spark的资源分配方式 1. spark自定义分区 1 阅读全文
posted @ 2019-10-19 19:02 小码农成长记 阅读(172) 评论(0) 推荐(0)
摘要:主要围绕spark的底层核心抽象RDD和原理进行理解。主要包括以下几个方面 RDD弹性分布式数据集的依赖关系 RDD弹性分布式数据集的lineage血统机制 RDD弹性分布式数据集的缓存机制 spark任务的DAG有向无环图的构建 spark任务如何划分stage spark任务的提交和调度流程 1 阅读全文
posted @ 2019-10-07 22:37 小码农成长记 阅读(193) 评论(0) 推荐(0)
摘要:主要围绕spark的底层核心抽象RDD进行理解。主要包括以下几个方面 RDD弹性分布式数据集的概念 RDD弹性分布式数据集的五大属性 RDD弹性分布式数据集的算子操作分类 RDD弹性分布式数据集的算子操作练习 1. RDD是什么 RDD(Resilient Distributed Dataset)叫 阅读全文
posted @ 2019-10-07 21:34 小码农成长记 阅读(415) 评论(0) 推荐(0)
摘要:1. spark是什么 Apache Spark™ is a unified analytics engine for large-scale data processing. spark是针对于大规模数据处理的统一分析引擎 spark是在Hadoop基础上的改进,是UC Berkeley AMP 阅读全文
posted @ 2019-10-05 20:06 小码农成长记 阅读(214) 评论(0) 推荐(0)