11.7

一. 单选题（共5题，10分）

(单选题, 2分)在实际应用中，大数据处理不包括哪些类型？
A. 基于实时数据流的数据处理
B. 基于离线数据的处理
C. 复杂的批量数据处理
D. 基于历史数据的交互式查询
我的答案: A:基于实时数据流的数据处理;正确答案: B:基于离线数据的处理;
0分
(单选题, 2分)下列关于Spark的描述，错误的是哪一项？
A. Spark最初由美国加州伯克利大学（UCBerkeley）的AMP实验室于2009年开发
B. Spark在2014年打破了Hadoop保持的基准排序纪录.
C. Spark用十分之一的计算资源，获得了比Hadoop快3倍的速度
D. Spark运行模式单一
我的答案: D:Spark运行模式单一;正确答案: D:Spark运行模式单一;
2分
(单选题, 2分)下列说法哪项有误？
A. 相对于Spark来说，使用Hadoop进行迭代计算非常耗资源
B. Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据
C. Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念
D. Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案
我的答案: C:Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念;正确答案: C:Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念;
2分
(单选题, 2分)下列说法错误的是？
A. RDD（Resillient Distributed Dataset）是运行在工作节点（WorkerNode）的一个进程，负责运行Task
B. Application是用户编写的Spark应用程序
C. 一个Job包含多个RDD及作用于相应RDD上的各种操作
D. Directed Acyclic Graph反映RDD之间的依赖关
我的答案: A:RDD（Resillient Distributed Dataset）是运行在工作节点（WorkerNode）的一个进程，负责运行Task;正确答案: A:RDD（Resillient Distributed Dataset）是运行在工作节点（WorkerNode）的一个进程，负责运行Task;
2分
(单选题, 2分)下列关于RDD说法，描述有误的是？
A. 一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合
B. 每个RDD可分成多个分区，每个分区就是一个数据集片段
C. RDD是可以直接修改的
D. RDD提供了一种高度受限的共享内存模型
我的答案: C:RDD是可以直接修改的;正确答案: C:RDD是可以直接修改的;
2分
二. 多选题（共5题，10分）
(多选题, 2分)Apache软件基金会最重要的三大分布式计算系统开源项目
A. Hadoop
B. Spark
C. Storm
D. Hive
我的答案: ABC:Hadoop; Spark; Storm;正确答案: ABC:Hadoop; Spark; Storm;
2分
(多选题, 2分)Spark具有的主要特点包括：
A. 运行模式多样
B. 运行速度快
C. 容易使用
D. 通用性
我的答案: ABCD:运行模式多样; 运行速度快; 容易使用; 通用性;正确答案: ABCD:运行模式多样; 运行速度快; 容易使用; 通用性;
2分
(多选题, 2分)Scala的特性包括：
A. Scala具备强大的并发性
B. Scala语法复杂
C. Scala兼容Java
D. 运行速度快
我的答案: ACD:Scala具备强大的并发性; Scala兼容Java; 运行速度快;正确答案: ACD:Scala具备强大的并发性; Scala兼容Java; 运行速度快;
2分
(多选题, 2分)Spark最主要的优点是（）
A. 计算模式只能是MapReduce
B. Spark提供了内存计算
C. 提供了单一数据集操作类型
D. 基于DAG的任务调度执行机制
我的答案: BD:Spark提供了内存计算; 基于DAG的任务调度执行机制;正确答案: BD:Spark提供了内存计算; 基于DAG的任务调度执行机制;
2分
(多选题, 2分)Spark所采用Executor的优点包括：
A. 利用多线程来执行具体的任务
B. 多线程之间的数据共享
C. 存储模块全部都只能在内存中完成
D. Executor中有一个BlockManager存储模块，有效减少IO开销
我的答案: AD:利用多线程来执行具体的任务; Executor中有一个BlockManager存储模块，有效减少IO开销;正确答案: AD:利用多线程来执行具体的任务; Executor中有一个BlockManager存储模块，有效减少IO开销;
2分
三. 简答题（共1题，20分）
(简答题, 20分)以下题目二选一： 1、请写出三个大数据在人类生活中应用的实例，并谈谈自己对大数据的看法。 2、编程实践：参考教程https://dblab.xmu.edu.cn/blog/4322/，任意选择以下一种方式通过Spark API 编写一个独立应用程序。（一）使用sbt对Scala独立应用程序进行编译打包（二）使用Maven对Java独立应用程序进行编译打包（三）使用Maven对Scala独立应用程序进行编译打包并截图给出代码及运行结果。
我的答案：18分
看法：提升效率与体验：大数据显著提高了企业的运营效率和用户体验。个性化推荐、智能调度等技术让服务更加贴近用户需求，这对于商业模式的创新和市场竞争力的提升至关重要。

数据隐私与安全：随着大数据应用的深入，用户的个人隐私面临更大风险。很多用户对数据收集和使用的透明度不够，因此企业在利用大数据时应加强对用户隐私的保护，建立信任关系。

决策支持：大数据为企业提供了科学的决策依据，使得管理层能够更加精准地进行市场分析、产品研发和战略规划。这种数据驱动的决策模式，将在未来的商业环境中变得越来越重要。

实例：阿里巴巴的智能推荐：阿里巴巴通过分析用户的购物行为和偏好，利用大数据技术为每个用户提供个性化的购物推荐。这种精准推荐不仅提高了用户的购物体验，还显著提升了转化率。

腾讯的社交网络分析：腾讯通过微信和QQ等社交平台，收集用户的社交数据。利用大数据分析，腾讯能够识别用户的社交网络，推送相关内容和广告，增强用户的活跃度。

美团的餐饮服务优化：美团通过分析用户的订餐数据、评价和位置信息，优化餐饮推荐和配送服务。通过大数据，美团能够更好地预测用户的需求，提高订单的处理效率。

滴滴出行的动态调度：滴滴利用大数据分析实时交通情况和用户的打车需求，进行动态调度。这不仅提高了司机的接单率，还大幅减少了用户的等待时间。

京东的供应链管理：京东通过大数据分析用户的购买行为和库存数据，优化供应链管理。这种方法使得京东能够更高效地管理库存，减少成本，同时

posted @ 2024-11-05 14:21 aallofitisst 阅读(41) 评论(0) 收藏举报

刷新页面返回顶部

11.7

公告