摘要: 本篇博客中的操作都在 中执行。 RDD,即 弹性分布式数据集(Resilient Distributed Dataset) ,是Spark对数据的核心抽象。RDD是分布式元素的集合,对手的所有操作都可以概括为: 创建RDD 转化已有RDD 调用RDD操作进行求值 在这些操作中,Spark会自动将RD 阅读全文
posted @ 2017-01-06 14:57 guoyunzhe 阅读(1006) 评论(0) 推荐(0) 编辑
摘要: 这里只使用Spark的Python操作和接口,其他语言应为不熟悉,所以先不写在这里。 Spark 部署 可以直接从官方网站下载 pre build 版本,可以直接在电脑上运行,离线安装也是可以的,比如说针对 Python 2.7 的[link](http://mirror.bit.edu.cn/ap 阅读全文
posted @ 2017-01-06 09:12 guoyunzhe 阅读(173) 评论(0) 推荐(0) 编辑