11.7
一. 单选题(共5题,10分)
- (单选题, 2分)在实际应用中,大数据处理不包括哪些类型?
A. 基于实时数据流的数据处理
B. 基于离线数据的处理
C. 复杂的批量数据处理
D. 基于历史数据的交互式查询
我的答案: A:基于实时数据流的数据处理;正确答案: B:基于离线数据的处理;
0分 - (单选题, 2分)下列关于Spark的描述,错误的是哪一项?
A. Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发
B. Spark在2014年打破了Hadoop保持的基准排序纪录.
C. Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度
D. Spark运行模式单一
我的答案: D:Spark运行模式单一;正确答案: D:Spark运行模式单一;
2分 - (单选题, 2分)下列说法哪项有误?
A. 相对于Spark来说,使用Hadoop进行迭代计算非常耗资源
B. Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据
C. Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念
D. Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案
我的答案: C:Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念;正确答案: C:Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念;
2分 - (单选题, 2分)下列说法错误的是?
A. RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task
B. Application是用户编写的Spark应用程序
C. 一个Job包含多个RDD及作用于相应RDD上的各种操作
D. Directed Acyclic Graph反映RDD之间的依赖关
我的答案: A:RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task;正确答案: A:RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task;
2分 - (单选题, 2分)下列关于RDD说法,描述有误的是?
A. 一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合
B. 每个RDD可分成多个分区,每个分区就是一个数据集片段
C. RDD是可以直接修改的
D. RDD提供了一种高度受限的共享内存模型
我的答案: C:RDD是可以直接修改的;正确答案: C:RDD是可以直接修改的;
2分
二. 多选题(共5题,10分) - (多选题, 2分)Apache软件基金会最重要的三大分布式计算系统开源项目
A. Hadoop
B. Spark
C. Storm
D. Hive
我的答案: ABC:Hadoop; Spark; Storm;正确答案: ABC:Hadoop; Spark; Storm;
2分 - (多选题, 2分)Spark具有的主要特点包括:
A. 运行模式多样
B. 运行速度快
C. 容易使用
D. 通用性
我的答案: ABCD:运行模式多样; 运行速度快; 容易使用; 通用性;正确答案: ABCD:运行模式多样; 运行速度快; 容易使用; 通用性;
2分 - (多选题, 2分)Scala的特性包括:
A. Scala具备强大的并发性
B. Scala语法复杂
C. Scala兼容Java
D. 运行速度快
我的答案: ACD:Scala具备强大的并发性; Scala兼容Java; 运行速度快;正确答案: ACD:Scala具备强大的并发性; Scala兼容Java; 运行速度快;
2分 - (多选题, 2分)Spark最主要的优点是()
A. 计算模式只能是MapReduce
B. Spark提供了内存计算
C. 提供了单一数据集操作类型
D. 基于DAG的任务调度执行机制
我的答案: BD:Spark提供了内存计算; 基于DAG的任务调度执行机制;正确答案: BD:Spark提供了内存计算; 基于DAG的任务调度执行机制;
2分 - (多选题, 2分)Spark所采用Executor的优点包括:
A. 利用多线程来执行具体的任务
B. 多线程之间的数据共享
C. 存储模块全部都只能在内存中完成
D. Executor中有一个BlockManager存储模块,有效减少IO开销
我的答案: AD:利用多线程来执行具体的任务; Executor中有一个BlockManager存储模块,有效减少IO开销;正确答案: AD:利用多线程来执行具体的任务; Executor中有一个BlockManager存储模块,有效减少IO开销;
2分
三. 简答题(共1题,20分) - (简答题, 20分)以下题目二选一: 1、请写出三个大数据在人类生活中应用的实例,并谈谈自己对大数据的看法。 2、编程实践:参考教程https://dblab.xmu.edu.cn/blog/4322/,任意选择以下一种方式通过Spark API 编写一个独立应用程序。 (一)使用sbt对Scala独立应用程序进行编译打包 (二)使用Maven对Java独立应用程序进行编译打包 (三)使用Maven对Scala独立应用程序进行编译打包 并截图给出代码及运行结果。
我的答案:18分
看法:提升效率与体验:大数据显著提高了企业的运营效率和用户体验。个性化推荐、智能调度等技术让服务更加贴近用户需求,这对于商业模式的创新和市场竞争力的提升至关重要。
数据隐私与安全:随着大数据应用的深入,用户的个人隐私面临更大风险。很多用户对数据收集和使用的透明度不够,因此企业在利用大数据时应加强对用户隐私的保护,建立信任关系。
决策支持:大数据为企业提供了科学的决策依据,使得管理层能够更加精准地进行市场分析、产品研发和战略规划。这种数据驱动的决策模式,将在未来的商业环境中变得越来越重要。
实例:阿里巴巴的智能推荐:阿里巴巴通过分析用户的购物行为和偏好,利用大数据技术为每个用户提供个性化的购物推荐。这种精准推荐不仅提高了用户的购物体验,还显著提升了转化率。
腾讯的社交网络分析:腾讯通过微信和QQ等社交平台,收集用户的社交数据。利用大数据分析,腾讯能够识别用户的社交网络,推送相关内容和广告,增强用户的活跃度。
美团的餐饮服务优化:美团通过分析用户的订餐数据、评价和位置信息,优化餐饮推荐和配送服务。通过大数据,美团能够更好地预测用户的需求,提高订单的处理效率。
滴滴出行的动态调度:滴滴利用大数据分析实时交通情况和用户的打车需求,进行动态调度。这不仅提高了司机的接单率,还大幅减少了用户的等待时间。
京东的供应链管理:京东通过大数据分析用户的购买行为和库存数据,优化供应链管理。这种方法使得京东能够更高效地管理库存,减少成本,同时