随笔档案「2018年3月6日」：深入探究Spark -- RDD详解 ... - KINGHEY

2018年3月6日

摘要： Spark最基本、最根本的数据抽象 RDD基于内存，提高了迭代式、交互式操作的性能 RDD是只读的，只能通过其他RDD批量操作来创建，提高容错性另外RDD还具有位置感知性调度和可伸缩性 RDD只支持粗粒度转换，记录Lineage，用于恢复丢失的分区，从物理存储的数据计算出相应的RDD分区 RDD的阅读全文

posted @ 2018-03-06 21:49 KINGHEY 阅读(404) 评论(0) 推荐(0)

深入探究Spark -- 基本组成

摘要： DAG：Directed Acyclic Graph，有向无环图 RDD：Resilient Distributed Dataset 弹性分布式数据集，一种分布式的内存抽象，将工作集缓存到内存中，实现了复用。用户使用交互接口（Driver）与Spark集群的Cluster Manager进行交互，阅读全文

posted @ 2018-03-06 21:36 KINGHEY 阅读(279) 评论(0) 推荐(0)

Spark core基础 -- 基本架构和RDD

摘要： Spark运行架构： Spark运行架构包括集群资源管理器（Cluster Manager）、运行作业任务的工作节点（Worker Node）、每个应用的任务控制节点（Driver）和每个工作节点上负责具体任务的执行进程（Executor）与Hadoop MapReduce计算框架相比，Spark 阅读全文

posted @ 2018-03-06 20:47 KINGHEY 阅读(5487) 评论(1) 推荐(1)

Hadoop基础总结（各组件特性）

摘要： Hadoop整体：简介： Apache开发、基于Java、核心是HDFS和MapReduce 特性：高可靠（容错）性（冗余存储）、高效性（分布式存储和处理）、高可扩展性（成本低）（集群）、支持多种语言应用架构：重要子项目： HDFS：文件系统，超大数据、流式处理能力。在部分硬件故障下仍能保证阅读全文

posted @ 2018-03-06 17:29 KINGHEY 阅读(837) 评论(0) 推荐(0)

Java基础总结

摘要：什么是Java虚拟机？为什么Java被称作是“平台无关的编程语言”？ Java虚拟机是一个可以执行Java字节码的虚拟机进程。Java源文件被编译成能被Java虚拟机执行的字节码文件。 Java被设计成允许应用程序可以运行在任意的平台，而不需要程序员为每一个平台单独重写或者是重新编译。Java虚拟机阅读全文

posted @ 2018-03-06 15:53 KINGHEY 阅读(204) 评论(0) 推荐(0)