博客园 - Aaron-Mhs
uuid:6cbd1ba2-f883-4c34-aed1-30dde64a3a3e;id=665687
2018-08-07T08:36:43Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
feed.cnblogs.com
https://www.cnblogs.com/sh425/p/7928175.html
Flink快速入门 - Aaron-Mhs
文章目录 1 安装:下载并启动 1.1 下载 1.2 启动一个local模式的Flink集群 2 运行例子 3 集群模式安装 4 Flink on YARN 文章目录 1 安装:下载并启动 1.1 下载 1.2 启动一个local模式的Flink集群 2 运行例子 3 集群模式安装 4 Flink
2017-11-30T03:35:00Z
2017-11-30T03:35:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】文章目录 1 安装:下载并启动 1.1 下载 1.2 启动一个local模式的Flink集群 2 运行例子 3 集群模式安装 4 Flink on YARN 文章目录 1 安装:下载并启动 1.1 下载 1.2 启动一个local模式的Flink集群 2 运行例子 3 集群模式安装 4 Flink <a href="https://www.cnblogs.com/sh425/p/7928175.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7928011.html
Flink架构、原理与部署测试 - Aaron-Mhs
Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。 现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为它们所提供的SLA(Service-Level-Aggreement)是完全
2017-11-30T03:10:00Z
2017-11-30T03:10:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。 现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为它们所提供的SLA(Service-Level-Aggreement)是完全 <a href="https://www.cnblogs.com/sh425/p/7928011.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7596435.html
第十一篇:Spark SQL 源码分析之 External DataSource外部数据源 - Aaron-Mhs
上周Spark1.2刚发布,周末在家没事,把这个特性给了解一下,顺便分析下源码,看一看这个特性是如何设计及实现的。 /** Spark SQL源码分析系列文章*/ (Ps: External DataSource使用篇地址:Spark SQL之External DataSource外部数据源(一)示
2017-09-26T05:58:00Z
2017-09-26T05:58:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】上周Spark1.2刚发布,周末在家没事,把这个特性给了解一下,顺便分析下源码,看一看这个特性是如何设计及实现的。 /** Spark SQL源码分析系列文章*/ (Ps: External DataSource使用篇地址:Spark SQL之External DataSource外部数据源(一)示 <a href="https://www.cnblogs.com/sh425/p/7596435.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7596432.html
第十篇:Spark SQL 源码分析之 In-Memory Columnar Storage源码分析之 query - Aaron-Mhs
/** Spark SQL源码分析系列文章*/ 前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。 那么基于以上存储结构,我们查询cache在jvm内的数据又是如何查询的,本文将揭示查询In-Memory Data的方式。 一、引子 本例使用
2017-09-26T05:57:00Z
2017-09-26T05:57:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】/** Spark SQL源码分析系列文章*/ 前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。 那么基于以上存储结构,我们查询cache在jvm内的数据又是如何查询的,本文将揭示查询In-Memory Data的方式。 一、引子 本例使用 <a href="https://www.cnblogs.com/sh425/p/7596432.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7596428.html
第九篇:Spark SQL 源码分析之 In-Memory Columnar Storage源码分析之 cache table - Aaron-Mhs
/** Spark SQL源码分析系列文章*/ Spark SQL 可以将数据缓存到内存中,我们可以见到的通过调用cache table tableName即可将一张表缓存到内存中,来极大的提高查询效率。 这就涉及到内存中的数据的存储形式,我们知道基于关系型的数据可以存储为基于行存储结构 或 者基于
2017-09-26T05:56:00Z
2017-09-26T05:56:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】/** Spark SQL源码分析系列文章*/ Spark SQL 可以将数据缓存到内存中,我们可以见到的通过调用cache table tableName即可将一张表缓存到内存中,来极大的提高查询效率。 这就涉及到内存中的数据的存储形式,我们知道基于关系型的数据可以存储为基于行存储结构 或 者基于 <a href="https://www.cnblogs.com/sh425/p/7596428.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7596424.html
第八篇:Spark SQL Catalyst源码分析之UDF - Aaron-Mhs
/** Spark SQL源码分析系列文章*/ 在SQL的世界里,除了官方提供的常用的处理函数之外,一般都会提供可扩展的对外自定义函数接口,这已经成为一种事实的标准。 在前面Spark SQL源码分析之核心流程一文中,已经介绍了Spark SQL Catalyst Analyzer的作用,其中包含了
2017-09-26T05:55:00Z
2017-09-26T05:55:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】/** Spark SQL源码分析系列文章*/ 在SQL的世界里,除了官方提供的常用的处理函数之外,一般都会提供可扩展的对外自定义函数接口,这已经成为一种事实的标准。 在前面Spark SQL源码分析之核心流程一文中,已经介绍了Spark SQL Catalyst Analyzer的作用,其中包含了 <a href="https://www.cnblogs.com/sh425/p/7596424.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7596420.html
第七篇:Spark SQL 源码分析之Physical Plan 到 RDD的具体实现 - Aaron-Mhs
/** Spark SQL源码分析系列文章*/ 接上一篇文章Spark SQL Catalyst源码分析之Physical Plan,本文将介绍Physical Plan的toRDD的具体实现细节: 我们都知道一段sql,真正的执行是当你调用它的collect()方法才会执行Spark Job,最后
2017-09-26T05:54:00Z
2017-09-26T05:54:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】/** Spark SQL源码分析系列文章*/ 接上一篇文章Spark SQL Catalyst源码分析之Physical Plan,本文将介绍Physical Plan的toRDD的具体实现细节: 我们都知道一段sql,真正的执行是当你调用它的collect()方法才会执行Spark Job,最后 <a href="https://www.cnblogs.com/sh425/p/7596420.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7596408.html
第五篇:Spark SQL Catalyst源码分析之Optimizer - Aaron-Mhs
/** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer 以及核心类库TreeNode,本文将详细讲解Spark SQL的Optimizer的优化思想以及Optimizer在Catalyst里的表现方式
2017-09-26T05:52:00Z
2017-09-26T05:52:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】/** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer 以及核心类库TreeNode,本文将详细讲解Spark SQL的Optimizer的优化思想以及Optimizer在Catalyst里的表现方式 <a href="https://www.cnblogs.com/sh425/p/7596408.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7596412.html
第六篇:Spark SQL Catalyst源码分析之Physical Plan - Aaron-Mhs
/** Spark SQL源码分析系列文章*/ 前面几篇文章主要介绍的是spark sql包里的的spark sql执行流程,以及Catalyst包内的SqlParser,Analyzer和Optimizer,最后要介绍一下Catalyst里最后的一个Plan了,即Physical Plan。物理计
2017-09-26T05:52:00Z
2017-09-26T05:52:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】/** Spark SQL源码分析系列文章*/ 前面几篇文章主要介绍的是spark sql包里的的spark sql执行流程,以及Catalyst包内的SqlParser,Analyzer和Optimizer,最后要介绍一下Catalyst里最后的一个Plan了,即Physical Plan。物理计 <a href="https://www.cnblogs.com/sh425/p/7596412.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7596401.html
第四篇:Spark SQL Catalyst源码分析之TreeNode Library - Aaron-Mhs
/** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer,本来打算直接写Optimizer的,但是发现忘记介绍TreeNode这个Catalyst的核心概念,介绍这个可以更好的理解Optimizer是如
2017-09-26T05:51:00Z
2017-09-26T05:51:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】/** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer,本来打算直接写Optimizer的,但是发现忘记介绍TreeNode这个Catalyst的核心概念,介绍这个可以更好的理解Optimizer是如 <a href="https://www.cnblogs.com/sh425/p/7596401.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7596393.html
第三篇:Spark SQL Catalyst源码分析之Analyzer - Aaron-Mhs
/** Spark SQL源码分析系列文章*/ 前面几篇文章讲解了Spark SQL的核心执行流程和Spark SQL的Catalyst框架的Sql Parser是怎样接受用户输入sql,经过解析生成Unresolved Logical Plan的。我们记得Spark SQL的执行流程中另一个核心的
2017-09-26T05:50:00Z
2017-09-26T05:50:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】/** Spark SQL源码分析系列文章*/ 前面几篇文章讲解了Spark SQL的核心执行流程和Spark SQL的Catalyst框架的Sql Parser是怎样接受用户输入sql,经过解析生成Unresolved Logical Plan的。我们记得Spark SQL的执行流程中另一个核心的 <a href="https://www.cnblogs.com/sh425/p/7596393.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7596383.html
第二篇:Spark SQL Catalyst源码分析之SqlParser - Aaron-Mhs
/** Spark SQL源码分析系列文章*/ Spark SQL的核心执行流程我们已经分析完毕,可以参见Spark SQL核心执行流程,下面我们来分析执行流程中各个核心组件的工作职责。 本文先从入口开始分析,即如何解析SQL文本生成逻辑计划的,主要设计的核心组件式SqlParser是一个SQL语言
2017-09-26T05:48:00Z
2017-09-26T05:48:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】/** Spark SQL源码分析系列文章*/ Spark SQL的核心执行流程我们已经分析完毕,可以参见Spark SQL核心执行流程,下面我们来分析执行流程中各个核心组件的工作职责。 本文先从入口开始分析,即如何解析SQL文本生成逻辑计划的,主要设计的核心组件式SqlParser是一个SQL语言 <a href="https://www.cnblogs.com/sh425/p/7596383.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7596376.html
第一篇:Spark SQL源码分析之核心流程 - Aaron-Mhs
/** Spark SQL源码分析系列文章*/ 自从去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst,到至今1年多了,Spark SQL的贡献者从几人到了几十人,而且发展速度异常迅猛,究其原因,个人认为有以下2点: 1、整合:将SQL类型的查询语言整
2017-09-26T05:47:00Z
2017-09-26T05:47:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】/** Spark SQL源码分析系列文章*/ 自从去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst,到至今1年多了,Spark SQL的贡献者从几人到了几十人,而且发展速度异常迅猛,究其原因,个人认为有以下2点: 1、整合:将SQL类型的查询语言整 <a href="https://www.cnblogs.com/sh425/p/7596376.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7596371.html
【Spark SQL 源码分析系列文章】 - Aaron-Mhs
从决定写Spark SQL源码分析的文章,到现在一个月的时间里,陆陆续续差不多快完成了,这里也做一个整合和索引,方便大家阅读,这里给出阅读顺序 :) 第一篇 Spark SQL源码分析之核心流程 第二篇 Spark SQL Catalyst源码分析之SqlParser 第三篇 Spark SQL C
2017-09-26T05:46:00Z
2017-09-26T05:46:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】从决定写Spark SQL源码分析的文章,到现在一个月的时间里,陆陆续续差不多快完成了,这里也做一个整合和索引,方便大家阅读,这里给出阅读顺序 :) 第一篇 Spark SQL源码分析之核心流程 第二篇 Spark SQL Catalyst源码分析之SqlParser 第三篇 Spark SQL C <a href="https://www.cnblogs.com/sh425/p/7596371.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7389276.html
操作系统:页面与页表 - Aaron-Mhs
基本分页存储管理方式 页面与页表 1. 页面 1) 页面和物理块 分页存储管理,是将一个进程的逻辑地址空间分成若干个大小相等的片,称为页面或页,并为各页加以编号,从0开始,如第0页、第1页等。相应地,也把内存空间分成与页面相同大小的若干个存储块,称为(物理)块或页框(frame),也同样为它们加以编
2017-08-18T05:56:00Z
2017-08-18T05:56:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】基本分页存储管理方式 页面与页表 1. 页面 1) 页面和物理块 分页存储管理,是将一个进程的逻辑地址空间分成若干个大小相等的片,称为页面或页,并为各页加以编号,从0开始,如第0页、第1页等。相应地,也把内存空间分成与页面相同大小的若干个存储块,称为(物理)块或页框(frame),也同样为它们加以编 <a href="https://www.cnblogs.com/sh425/p/7389276.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7388323.html
HBase 协处理器---基本概念和regionObserver的简单实现 - Aaron-Mhs
1. 简介 对于HBase的协处理器概念可由其官方博文了解:https://blogs.apache.org/hbase/entry/coprocessor_introduction 总体来说其包含两种协处理器:Observers和Endpoint。 其中Observers可以理解问传统数据库的触发
2017-08-18T02:47:00Z
2017-08-18T02:47:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】1. 简介 对于HBase的协处理器概念可由其官方博文了解:https://blogs.apache.org/hbase/entry/coprocessor_introduction 总体来说其包含两种协处理器:Observers和Endpoint。 其中Observers可以理解问传统数据库的触发 <a href="https://www.cnblogs.com/sh425/p/7388323.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7388288.html
HBase 协处理器编程详解第一部分:Server 端代码编写 - Aaron-Mhs
Hbase 协处理器 Coprocessor 简介 HBase 是一款基于 Hadoop 的 key-value 数据库,它提供了对 HDFS 上数据的高效随机读写服务,完美地填补了 Hadoop MapReduce 仅适于批处理的缺陷,正在被越来越多的用户使用。作为 HBase 的一项重要特性,C
2017-08-18T02:43:00Z
2017-08-18T02:43:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】Hbase 协处理器 Coprocessor 简介 HBase 是一款基于 Hadoop 的 key-value 数据库,它提供了对 HDFS 上数据的高效随机读写服务,完美地填补了 Hadoop MapReduce 仅适于批处理的缺陷,正在被越来越多的用户使用。作为 HBase 的一项重要特性,C <a href="https://www.cnblogs.com/sh425/p/7388288.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7388297.html
HBase 协处理器编程详解,第二部分:客户端代码编写 - Aaron-Mhs
实现 Client 端代码 HBase 提供了客户端 Java 包 org.apache.hadoop.hbase.client.coprocessor。它提供以下三种方法来调用协处理器提供的服务: Table.coprocessorService(byte[]) Table.coprocessor
2017-08-18T02:43:00Z
2017-08-18T02:43:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】实现 Client 端代码 HBase 提供了客户端 Java 包 org.apache.hadoop.hbase.client.coprocessor。它提供以下三种方法来调用协处理器提供的服务: Table.coprocessorService(byte[]) Table.coprocessor <a href="https://www.cnblogs.com/sh425/p/7388297.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7384467.html
Spark Configuration配置 - Aaron-Mhs
Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数 通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量 通过log4j.properties配置日志属性 Spark属性 Spark属性可以为每个应用分别进行配置,
2017-08-17T13:25:00Z
2017-08-17T13:25:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数 通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量 通过log4j.properties配置日志属性 Spark属性 Spark属性可以为每个应用分别进行配置, <a href="https://www.cnblogs.com/sh425/p/7384467.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sh425/p/7384445.html
文件操作和内存映射文件 - Aaron-Mhs
文件操作 上一篇已经总结了流操作,其中也包括文件的读写。文件系统除了读写以为还有很多其他的操作,如复制、移动、删除、目录浏览、属性读写等。在Java7之前,一直使用File类用于文件的操作。Java7提供了Path,Paths,Files等类,使文件操作变得简单和全面。此外还有很多第三方库也提供了文
2017-08-17T13:20:00Z
2017-08-17T13:20:00Z
Aaron-Mhs
https://www.cnblogs.com/sh425/
【摘要】文件操作 上一篇已经总结了流操作,其中也包括文件的读写。文件系统除了读写以为还有很多其他的操作,如复制、移动、删除、目录浏览、属性读写等。在Java7之前,一直使用File类用于文件的操作。Java7提供了Path,Paths,Files等类,使文件操作变得简单和全面。此外还有很多第三方库也提供了文 <a href="https://www.cnblogs.com/sh425/p/7384445.html" target="_blank">阅读全文</a>