代码改变世界

spark快速大数据分析学习笔记(1)

2018-11-30 11:53 by 刘叔555, 366 阅读, 0 推荐, 收藏,
摘要:本文是《spark快速大数据分析学习》第三章学习笔记,文中大量摘抄书中原本,仅为个人学习笔记。 RDD基础: RDD是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这个分区运行在集群的不同节点上。RDD可以包含Python、Java、Scala中任意类型的对象。 创建RDD的方式: 读取一 阅读全文