03 2021 档案
摘要:准备文本文件 从文件创建RDD lines=sc.textFile() 筛选出含某个单词的行 lines.filter() lambda 参数:条件表达式 生成单词的列表 从列表创建RDD words=sc.parallelize() 筛选出长度大于10 的单词 words.filter()
阅读全文
摘要:1. Spark已打造出结构一体化、功能多样化的大数据生态系统,请简述Spark生态系统。 spark生态系统称为BDAS(伯努利数据分析栈),本文旨在简单介绍Spark生态系统中一些常用的组件,让大家对Spark生态系统(BDAS)有个简单的了解,知道什么组件能做什么事情 Spark生态系统(BD
阅读全文
摘要:1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于
阅读全文
浙公网安备 33010602011771号