03 2021 档案

摘要:准备文本文件 从文件创建RDD lines=sc.textFile() 筛选出含某个单词的行 lines.filter() lambda 参数:条件表达式 生成单词的列表 从列表创建RDD words=sc.parallelize() 筛选出长度大于10 的单词 words.filter() 阅读全文
posted @ 2021-03-26 23:32 WillJayD 阅读(31) 评论(0) 推荐(0)
摘要:1. Spark已打造出结构一体化、功能多样化的大数据生态系统,请简述Spark生态系统。 spark生态系统称为BDAS(伯努利数据分析栈),本文旨在简单介绍Spark生态系统中一些常用的组件,让大家对Spark生态系统(BDAS)有个简单的了解,知道什么组件能做什么事情 Spark生态系统(BD 阅读全文
posted @ 2021-03-13 13:14 WillJayD 阅读(162) 评论(0) 推荐(0)
摘要:1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于 阅读全文
posted @ 2021-03-02 20:18 WillJayD 阅读(48) 评论(0) 推荐(0)