04 2016 档案

摘要:一:为什么需要Sort-Based Shuffle? 1, Shuffle一般包含两个阶段任务: 第一部分:产生Shuffle数据的阶段(Map阶段,额外补充,需要实现ShuffleManager中的getWriter来写数据(数据可以通过BlockManager写到Memory,Disk,Tach 阅读全文

posted @ 2016-04-26 20:51 听风居士 阅读(941) 评论(0) 推荐(0)

摘要:第16课:RDD实战 由于RDD的不可修改的特性,导致RDD的操作与正常面向对象的操作不同,RDD的操作基本分为3大类:transformation,action,contoller 1. Transformation Transformation是通过转化针对已有的RDD创建出新的RDD map( 阅读全文

posted @ 2016-04-23 15:39 听风居士 阅读(582) 评论(0) 推荐(0)

摘要:第15课:RDD创建内幕 Spark应用程序运行过程中,第一个RDD代表了Spark应用程序输入数据的来源,之后通过Trasformation来对RDD进行各种算子的转换,来实现具体的算法 Spark中的基本方式: 1) 使用程序中的集合创建 这种方式的实际意义主要用于测试。 2) 使用本地文件系统 阅读全文

posted @ 2016-04-23 10:59 听风居士 阅读(581) 评论(0) 推荐(0)

摘要:开篇:spark各种库,sparksql,sparkmachicelearning,等这么多库底层都是封装的RDD。意味着 1:RDD本身提供了通用的抽象, 2:spark现在有5个子框架,sql,Streaming,流式处理,机器学习,图计算,sparkR。可以根据具体领域的内容建模,建第6个库, 阅读全文

posted @ 2016-04-22 20:35 听风居士 阅读(558) 评论(0) 推荐(0)

导航