随笔档案「2016年4月」 - 听风居士

25,Spark Sort-Based Shuffle内幕彻底解密

摘要：一：为什么需要Sort-Based Shuffle? 1， Shuffle一般包含两个阶段任务：第一部分：产生Shuffle数据的阶段(Map阶段，额外补充，需要实现ShuffleManager中的getWriter来写数据(数据可以通过BlockManager写到Memory，Disk，Tach 阅读全文

posted @ 2016-04-26 20:51 听风居士阅读(941) 评论(0) 推荐(0)

16.RDD实战

摘要：第16课:RDD实战由于RDD的不可修改的特性，导致RDD的操作与正常面向对象的操作不同，RDD的操作基本分为3大类：transformation，action，contoller 1. Transformation Transformation是通过转化针对已有的RDD创建出新的RDD map( 阅读全文

posted @ 2016-04-23 15:39 听风居士阅读(582) 评论(0) 推荐(0)

15.RDD 创建内幕解析

摘要：第15课：RDD创建内幕 Spark应用程序运行过程中，第一个RDD代表了Spark应用程序输入数据的来源，之后通过Trasformation来对RDD进行各种算子的转换，来实现具体的算法 Spark中的基本方式： 1) 使用程序中的集合创建这种方式的实际意义主要用于测试。 2) 使用本地文件系统阅读全文

posted @ 2016-04-23 10:59 听风居士阅读(581) 评论(0) 推荐(0)

14.spark RDD解密

摘要：开篇：spark各种库，sparksql，sparkmachicelearning，等这么多库底层都是封装的RDD。意味着 1：RDD本身提供了通用的抽象， 2：spark现在有5个子框架，sql，Streaming，流式处理，机器学习，图计算，sparkR。可以根据具体领域的内容建模，建第6个库，阅读全文

posted @ 2016-04-22 20:35 听风居士阅读(558) 评论(0) 推荐(0)

听风居士

04 2016 档案

导航

公告