03 2021 档案
摘要:RDD 编程练习 一、filter, map, flatmap 练习: 1. 读文本文件生成 RDD lines >>> lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") 2. 将一行一行的文本分割成单词 words >
阅读全文
摘要:Spark RDD 编程 1 准备文本文件 vim /usr/local/spark/mycode/rdd/word.txt Hadoop is good Spark is fast Spark is better 从文件创建 RDD lines=sc.textFile() lines = sc.t
阅读全文
摘要:Spark架构与运行流程 1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark Hadoop 是一个由 Apache 基金会开发的大数据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,轻松地在
阅读全文

浙公网安备 33010602011771号