2014 年 8月 21 日随笔档案 - 瞌睡中的葡萄虎

2014年8月21日 #

摘要：在Spark中，每一个RDD是对于数据集在某一状态下的表现形式，比如说：map、filter、group by等都算一次操作，这个状态有可能是从前一状态转换而来的；因此换句话说一个RDD可能与之前的RDD(s)有依赖关系；RDD之间存在依赖关系；根据依赖关系的不同，可以将RDD分成两种不同的类型：宽... 阅读全文

posted @ 2014-08-21 15:57 瞌睡中的葡萄虎阅读(1338) 评论(0) 推荐(1)

Github提交Spark代码

摘要：记录下提交过程，易忘供查询用。内容源自田总的分享。1）在github上fork一份最新的master代码2）用社区代码库创建本地仓库git clone https://github.com/apache/spark test-spark3）加入自己的github代码库cd test-sparkgit... 阅读全文

posted @ 2014-08-21 15:38 瞌睡中的葡萄虎阅读(1023) 评论(0) 推荐(0)

瞌睡中的葡萄虎

公告