博客园 - Aaron-Mhs

Flink快速入门 - Aaron-Mhs

2017-11-30T03:35:00Z

【摘要】文章目录 1 安装：下载并启动 1.1 下载 1.2 启动一个local模式的Flink集群 2 运行例子 3 集群模式安装 4 Flink on YARN 文章目录 1 安装：下载并启动 1.1 下载 1.2 启动一个local模式的Flink集群 2 运行例子 3 集群模式安装 4 Flink 阅读全文

Flink架构、原理与部署测试 - Aaron-Mhs

2017-11-30T03:10:00Z

【摘要】Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时，提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型，因为它们所提供的SLA（Service-Level-Aggreement）是完全阅读全文

第十一篇：Spark SQL 源码分析之 External DataSource外部数据源 - Aaron-Mhs

2017-09-26T05:58:00Z

【摘要】上周Spark1.2刚发布，周末在家没事，把这个特性给了解一下，顺便分析下源码，看一看这个特性是如何设计及实现的。 /** Spark SQL源码分析系列文章*/ （Ps: External DataSource使用篇地址：Spark SQL之External DataSource外部数据源（一）示阅读全文

第十篇：Spark SQL 源码分析之 In-Memory Columnar Storage源码分析之 query - Aaron-Mhs

2017-09-26T05:57:00Z

【摘要】/** Spark SQL源码分析系列文章*/ 前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。那么基于以上存储结构，我们查询cache在jvm内的数据又是如何查询的，本文将揭示查询In-Memory Data的方式。一、引子本例使用阅读全文

第九篇：Spark SQL 源码分析之 In-Memory Columnar Storage源码分析之 cache table - Aaron-Mhs

2017-09-26T05:56:00Z

【摘要】/** Spark SQL源码分析系列文章*/ Spark SQL 可以将数据缓存到内存中，我们可以见到的通过调用cache table tableName即可将一张表缓存到内存中，来极大的提高查询效率。这就涉及到内存中的数据的存储形式，我们知道基于关系型的数据可以存储为基于行存储结构或者基于阅读全文

第八篇：Spark SQL Catalyst源码分析之UDF - Aaron-Mhs

2017-09-26T05:55:00Z

【摘要】/** Spark SQL源码分析系列文章*/ 在SQL的世界里，除了官方提供的常用的处理函数之外，一般都会提供可扩展的对外自定义函数接口，这已经成为一种事实的标准。在前面Spark SQL源码分析之核心流程一文中，已经介绍了Spark SQL Catalyst Analyzer的作用，其中包含了阅读全文

第七篇：Spark SQL 源码分析之Physical Plan 到 RDD的具体实现 - Aaron-Mhs

2017-09-26T05:54:00Z

【摘要】/** Spark SQL源码分析系列文章*/ 接上一篇文章Spark SQL Catalyst源码分析之Physical Plan，本文将介绍Physical Plan的toRDD的具体实现细节：我们都知道一段sql，真正的执行是当你调用它的collect()方法才会执行Spark Job，最后阅读全文

第五篇：Spark SQL Catalyst源码分析之Optimizer - Aaron-Mhs

2017-09-26T05:52:00Z

【摘要】/** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser，和Analyzer 以及核心类库TreeNode，本文将详细讲解Spark SQL的Optimizer的优化思想以及Optimizer在Catalyst里的表现方式阅读全文

第六篇：Spark SQL Catalyst源码分析之Physical Plan - Aaron-Mhs

2017-09-26T05:52:00Z

【摘要】/** Spark SQL源码分析系列文章*/ 前面几篇文章主要介绍的是spark sql包里的的spark sql执行流程，以及Catalyst包内的SqlParser，Analyzer和Optimizer，最后要介绍一下Catalyst里最后的一个Plan了，即Physical Plan。物理计阅读全文

第四篇：Spark SQL Catalyst源码分析之TreeNode Library - Aaron-Mhs

2017-09-26T05:51:00Z

【摘要】/** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser，和Analyzer，本来打算直接写Optimizer的，但是发现忘记介绍TreeNode这个Catalyst的核心概念，介绍这个可以更好的理解Optimizer是如阅读全文

第三篇：Spark SQL Catalyst源码分析之Analyzer - Aaron-Mhs

2017-09-26T05:50:00Z

【摘要】/** Spark SQL源码分析系列文章*/ 前面几篇文章讲解了Spark SQL的核心执行流程和Spark SQL的Catalyst框架的Sql Parser是怎样接受用户输入sql，经过解析生成Unresolved Logical Plan的。我们记得Spark SQL的执行流程中另一个核心的阅读全文

第二篇：Spark SQL Catalyst源码分析之SqlParser - Aaron-Mhs

2017-09-26T05:48:00Z

【摘要】/** Spark SQL源码分析系列文章*/ Spark SQL的核心执行流程我们已经分析完毕，可以参见Spark SQL核心执行流程，下面我们来分析执行流程中各个核心组件的工作职责。本文先从入口开始分析，即如何解析SQL文本生成逻辑计划的，主要设计的核心组件式SqlParser是一个SQL语言阅读全文

第一篇：Spark SQL源码分析之核心流程 - Aaron-Mhs

2017-09-26T05:47:00Z

【摘要】/** Spark SQL源码分析系列文章*/ 自从去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst，到至今1年多了,Spark SQL的贡献者从几人到了几十人，而且发展速度异常迅猛，究其原因，个人认为有以下2点： 1、整合：将SQL类型的查询语言整阅读全文

【Spark SQL 源码分析系列文章】 - Aaron-Mhs

2017-09-26T05:46:00Z

【摘要】从决定写Spark SQL源码分析的文章，到现在一个月的时间里，陆陆续续差不多快完成了，这里也做一个整合和索引，方便大家阅读，这里给出阅读顺序：）第一篇 Spark SQL源码分析之核心流程第二篇 Spark SQL Catalyst源码分析之SqlParser 第三篇 Spark SQL C 阅读全文

操作系统：页面与页表 - Aaron-Mhs

2017-08-18T05:56:00Z

【摘要】基本分页存储管理方式页面与页表 1. 页面 1) 页面和物理块分页存储管理，是将一个进程的逻辑地址空间分成若干个大小相等的片，称为页面或页，并为各页加以编号，从0开始，如第0页、第1页等。相应地，也把内存空间分成与页面相同大小的若干个存储块，称为(物理)块或页框(frame)，也同样为它们加以编阅读全文

HBase 协处理器---基本概念和regionObserver的简单实现 - Aaron-Mhs

2017-08-18T02:47:00Z

【摘要】1. 简介对于HBase的协处理器概念可由其官方博文了解：https://blogs.apache.org/hbase/entry/coprocessor_introduction 总体来说其包含两种协处理器：Observers和Endpoint。其中Observers可以理解问传统数据库的触发阅读全文

HBase 协处理器编程详解第一部分：Server 端代码编写 - Aaron-Mhs

2017-08-18T02:43:00Z

【摘要】Hbase 协处理器 Coprocessor 简介 HBase 是一款基于 Hadoop 的 key-value 数据库，它提供了对 HDFS 上数据的高效随机读写服务，完美地填补了 Hadoop MapReduce 仅适于批处理的缺陷，正在被越来越多的用户使用。作为 HBase 的一项重要特性，C 阅读全文

HBase 协处理器编程详解，第二部分：客户端代码编写 - Aaron-Mhs

2017-08-18T02:43:00Z

【摘要】实现 Client 端代码 HBase 提供了客户端 Java 包 org.apache.hadoop.hbase.client.coprocessor。它提供以下三种方法来调用协处理器提供的服务： Table.coprocessorService(byte[]) Table.coprocessor 阅读全文

Spark Configuration配置 - Aaron-Mhs

2017-08-17T13:25:00Z

【摘要】Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量通过log4j.properties配置日志属性 Spark属性 Spark属性可以为每个应用分别进行配置，阅读全文

文件操作和内存映射文件 - Aaron-Mhs

2017-08-17T13:20:00Z

【摘要】文件操作上一篇已经总结了流操作，其中也包括文件的读写。文件系统除了读写以为还有很多其他的操作，如复制、移动、删除、目录浏览、属性读写等。在Java7之前，一直使用File类用于文件的操作。Java7提供了Path，Paths，Files等类，使文件操作变得简单和全面。此外还有很多第三方库也提供了文阅读全文