Aaron-Mhs - 博客园

Flink快速入门

摘要：文章目录 1 安装：下载并启动 1.1 下载 1.2 启动一个local模式的Flink集群 2 运行例子 3 集群模式安装 4 Flink on YARN 文章目录 1 安装：下载并启动 1.1 下载 1.2 启动一个local模式的Flink集群 2 运行例子 3 集群模式安装 4 Flink 阅读全文

posted @ 2017-11-30 11:35 Aaron-Mhs 阅读(2043) 评论(0) 推荐(0)

Flink架构、原理与部署测试

摘要： Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时，提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型，因为它们所提供的SLA（Service-Level-Aggreement）是完全阅读全文

posted @ 2017-11-30 11:10 Aaron-Mhs 阅读(948) 评论(0) 推荐(0)

第十一篇：Spark SQL 源码分析之 External DataSource外部数据源

摘要：上周Spark1.2刚发布，周末在家没事，把这个特性给了解一下，顺便分析下源码，看一看这个特性是如何设计及实现的。 /** Spark SQL源码分析系列文章*/ （Ps: External DataSource使用篇地址：Spark SQL之External DataSource外部数据源（一）示阅读全文

posted @ 2017-09-26 13:58 Aaron-Mhs 阅读(756) 评论(0) 推荐(0)

第十篇：Spark SQL 源码分析之 In-Memory Columnar Storage源码分析之 query

摘要： /** Spark SQL源码分析系列文章*/ 前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。那么基于以上存储结构，我们查询cache在jvm内的数据又是如何查询的，本文将揭示查询In-Memory Data的方式。一、引子本例使用阅读全文

posted @ 2017-09-26 13:57 Aaron-Mhs 阅读(889) 评论(0) 推荐(0)

第九篇：Spark SQL 源码分析之 In-Memory Columnar Storage源码分析之 cache table

摘要： /** Spark SQL源码分析系列文章*/ Spark SQL 可以将数据缓存到内存中，我们可以见到的通过调用cache table tableName即可将一张表缓存到内存中，来极大的提高查询效率。这就涉及到内存中的数据的存储形式，我们知道基于关系型的数据可以存储为基于行存储结构或者基于阅读全文

posted @ 2017-09-26 13:56 Aaron-Mhs 阅读(1072) 评论(0) 推荐(0)

第八篇：Spark SQL Catalyst源码分析之UDF

摘要： /** Spark SQL源码分析系列文章*/ 在SQL的世界里，除了官方提供的常用的处理函数之外，一般都会提供可扩展的对外自定义函数接口，这已经成为一种事实的标准。在前面Spark SQL源码分析之核心流程一文中，已经介绍了Spark SQL Catalyst Analyzer的作用，其中包含了阅读全文

posted @ 2017-09-26 13:55 Aaron-Mhs 阅读(684) 评论(0) 推荐(0)

第七篇：Spark SQL 源码分析之Physical Plan 到 RDD的具体实现

摘要： /** Spark SQL源码分析系列文章*/ 接上一篇文章Spark SQL Catalyst源码分析之Physical Plan，本文将介绍Physical Plan的toRDD的具体实现细节：我们都知道一段sql，真正的执行是当你调用它的collect()方法才会执行Spark Job，最后阅读全文

posted @ 2017-09-26 13:54 Aaron-Mhs 阅读(694) 评论(0) 推荐(0)

第五篇：Spark SQL Catalyst源码分析之Optimizer

摘要： /** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser，和Analyzer 以及核心类库TreeNode，本文将详细讲解Spark SQL的Optimizer的优化思想以及Optimizer在Catalyst里的表现方式阅读全文

posted @ 2017-09-26 13:52 Aaron-Mhs 阅读(656) 评论(0) 推荐(0)

第六篇：Spark SQL Catalyst源码分析之Physical Plan

摘要： /** Spark SQL源码分析系列文章*/ 前面几篇文章主要介绍的是spark sql包里的的spark sql执行流程，以及Catalyst包内的SqlParser，Analyzer和Optimizer，最后要介绍一下Catalyst里最后的一个Plan了，即Physical Plan。物理计阅读全文

posted @ 2017-09-26 13:52 Aaron-Mhs 阅读(1131) 评论(0) 推荐(0)

第四篇：Spark SQL Catalyst源码分析之TreeNode Library

摘要： /** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser，和Analyzer，本来打算直接写Optimizer的，但是发现忘记介绍TreeNode这个Catalyst的核心概念，介绍这个可以更好的理解Optimizer是如阅读全文

posted @ 2017-09-26 13:51 Aaron-Mhs 阅读(737) 评论(0) 推荐(0)

累吗？累就对了，舒服是留给死人的...

公告