2017 年 8月 17 日随笔档案 - Aaron-Mhs

Spark Configuration配置

摘要： Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量通过log4j.properties配置日志属性 Spark属性 Spark属性可以为每个应用分别进行配置，阅读全文

posted @ 2017-08-17 21:25 Aaron-Mhs 阅读(5457) 评论(0) 推荐(0)

文件操作和内存映射文件

摘要：文件操作上一篇已经总结了流操作，其中也包括文件的读写。文件系统除了读写以为还有很多其他的操作，如复制、移动、删除、目录浏览、属性读写等。在Java7之前，一直使用File类用于文件的操作。Java7提供了Path，Paths，Files等类，使文件操作变得简单和全面。此外还有很多第三方库也提供了文阅读全文

posted @ 2017-08-17 21:20 Aaron-Mhs 阅读(1863) 评论(0) 推荐(0)

Spark 属性配置

摘要： 1.Spark1.x 属性配置方式 Spark属性提供了大部分应用程序的控制项，并且可以单独为每个应用程序进行配置。在Spark1.0.0提供了3种方式的属性配置： SparkConf方式 SparkConf方式可以直接将属性值传递到SparkContext； SparkConf可以对某些通用属性阅读全文

posted @ 2017-08-17 18:33 Aaron-Mhs 阅读(368) 评论(0) 推荐(0)

Spark Shuffle的技术演进

摘要：在Spark或Hadoop MapReduce的分布式计算框架中，数据被按照key分成一块一块的分区，打散分布在集群中各个节点的物理存储或内存空间中，每个计算任务一次处理一个分区，但map端和reduce端的计算任务并非按照一种方式对相同的分区进行计算，例如，当需要对数据进行排序时，就需要将key相阅读全文

posted @ 2017-08-17 18:22 Aaron-Mhs 阅读(254) 评论(0) 推荐(0)

Spark基本概念快速入门

摘要： Spark集群一组计算机的集合，每个计算机节点作为独立的计算资源，又可以虚拟出多个具备计算能力的虚拟机，这些虚拟机是集群中的计算单元。Spark的核心模块专注于调度和管理虚拟机之上分布式计算任务的执行，集群中的计算资源则交给Cluster Manager这个角色来管理，Cluster Manage 阅读全文

posted @ 2017-08-17 18:21 Aaron-Mhs 阅读(272) 评论(0) 推荐(0)

Apache Spark 内存管理详解

摘要： Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spar 阅读全文

posted @ 2017-08-17 18:18 Aaron-Mhs 阅读(149) 评论(0) 推荐(0)

内存映射文件原理探索

摘要：首先说说这篇文章要解决什么问题? 1.虚拟内存与内存映射文件的区别与联系. 2.内存映射文件的原理. 3.内存映射文件的效率. 4.传统IO和内存映射效率对比. 虚拟内存与内存映射文件的区别与联系二者的联系虚拟内存和内存映射文件都是将一部分内容加载到,另一部分放在磁盘上的一种机制,二者都是应用程阅读全文

posted @ 2017-08-17 16:37 Aaron-Mhs 阅读(835) 评论(0) 推荐(0)

累吗？累就对了，舒服是留给死人的...