spark

一. 单选题（共5题，10分）

1. (单选题, 2分) 在实际应用中，大数据处理不包括哪些类型？B

A 基于实时数据流的数据处理

B 基于离线数据的处理

C 复杂的批量数据处理

D 基于历史数据的交互式查询

2. (单选题, 2分) 下列关于Spark的描述，错误的是哪一项？D

ASpark最初由美国加州伯克利大学（UCBerkeley）的AMP实验室于2009年开发

BSpark在2014年打破了Hadoop保持的基准排序纪录.

CSpark用十分之一的计算资源，获得了比Hadoop快3倍的速度

DSpark运行模式单一

3. (单选题, 2分) 下列说法哪项有误？C

A 相对于Spark来说，使用Hadoop进行迭代计算非常耗资源

B Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据

C Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念

D Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案

4. (单选题, 2分) 下列说法错误的是？A

A RDD（Resillient Distributed Dataset）是运行在工作节点（WorkerNode）的一个进程，负责运行Task

B Application是用户编写的Spark应用程序

C 一个Job包含多个RDD及作用于相应RDD上的各种操作

D Directed Acyclic Graph反映RDD之间的依赖关

5. (单选题, 2分) 下列关于RDD说法，描述有误的是？C

A 一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合

B 每个RDD可分成多个分区，每个分区就是一个数据集片段

C RDD是可以直接修改的

D RDD提供了一种高度受限的共享内存模型

二. 多选题（共5题，10分）

6. (多选题, 2分) Apache软件基金会最重要的三大分布式计算系统开源项目ABC

A Hadoop

B Spark

C Storm

D Hive

7. (多选题, 2分) Spark具有的主要特点包括：ABCD

A 运行模式多样

B 运行速度快

C 容易使用

D 通用性

8. (多选题, 2分) Scala的特性包括：BCD

A Scala具备强大的并发性

B Scala语法复杂

C Scala兼容Java

D 运行速度快

9. (多选题, 2分) Spark最主要的优点是（）CD

A 计算模式只能是MapReduce

B Spark提供了内存计算

C 提供了单一数据集操作类型

D 基于DAG的任务调度执行机制

10. (多选题, 2分) Spark所采用Executor的优点包括：AD

A 利用多线程来执行具体的任务

B 多线程之间的数据共享

C 存储模块全部都只能在内存中完成

D Executor中有一个BlockManager存储模块，有效减少IO开销

posted @ 2024-10-30 08:50 席阅读(102) 评论(0) 收藏举报

刷新页面返回顶部

yindantong