2024.10.18

一. 单选题(共5题,10分)

1. (单选题, 2分)在实际应用中,大数据处理不包括哪些类型?

  • A. 基于实时数据流的数据处理
  • B. 基于离线数据的处理
  • C. 复杂的批量数据处理
  • D. 基于历史数据的交互式查询
我的答案: B:基于离线数据的处理;正确答案: B:基于离线数据的处理;
 
2分

2. (单选题, 2分)下列关于Spark的描述,错误的是哪一项?

  • A. Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发
  • B. Spark在2014年打破了Hadoop保持的基准排序纪录.
  • C. Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度
  • D. Spark运行模式单一
我的答案: D:Spark运行模式单一;正确答案: D:Spark运行模式单一;
 
2分

3. (单选题, 2分)下列说法哪项有误?

  • A. 相对于Spark来说,使用Hadoop进行迭代计算非常耗资源
  • B. Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据
  • C. Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念
  • D. Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案
我的答案: C:Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念;正确答案: C:Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念;
 
2分

4. (单选题, 2分)下列说法错误的是?

  • A. RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task
  • B. Application是用户编写的Spark应用程序
  • C. 一个Job包含多个RDD及作用于相应RDD上的各种操作
  • D. Directed Acyclic Graph反映RDD之间的依赖关
我的答案: A:RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task;正确答案: A:RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task;
 
2分

5. (单选题, 2分)下列关于RDD说法,描述有误的是?

  • A. 一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合
  • B. 每个RDD可分成多个分区,每个分区就是一个数据集片段
  • C. RDD是可以直接修改的
  • D. RDD提供了一种高度受限的共享内存模型
我的答案: C:RDD是可以直接修改的;正确答案: C:RDD是可以直接修改的;
 
2分

二. 多选题(共5题,10分)

6. (多选题, 2分)Apache软件基金会最重要的三大分布式计算系统开源项目

  • A. Hadoop
  • B. Spark
  • C. Storm
  • D. Hive
我的答案: ABC:Hadoop; Spark; Storm;正确答案: ABC:Hadoop; Spark; Storm;
 
2分

7. (多选题, 2分)Spark具有的主要特点包括:

  • A. 运行模式多样
  • B. 运行速度快
  • C. 容易使用
  • D. 通用性
我的答案: BCD:运行速度快; 容易使用; 通用性;正确答案: ABCD:运行模式多样; 运行速度快; 容易使用; 通用性;
 
1分

8. (多选题, 2分)Scala的特性包括:

  • A. Scala具备强大的并发性
  • B. Scala语法复杂
  • C. Scala兼容Java
  • D. 运行速度快
我的答案: ACD:Scala具备强大的并发性; Scala兼容Java; 运行速度快;正确答案: ACD:Scala具备强大的并发性; Scala兼容Java; 运行速度快;
 
2分

9. (多选题, 2分)Spark最主要的优点是()

  • A. 计算模式只能是MapReduce
  • B. Spark提供了内存计算
  • C. 提供了单一数据集操作类型
  • D. 基于DAG的任务调度执行机制
我的答案: BD:Spark提供了内存计算; 基于DAG的任务调度执行机制;正确答案: BD:Spark提供了内存计算; 基于DAG的任务调度执行机制;
 
2分

10. (多选题, 2分)Spark所采用Executor的优点包括:

  • A. 利用多线程来执行具体的任务
  • B. 多线程之间的数据共享
  • C. 存储模块全部都只能在内存中完成
  • D. Executor中有一个BlockManager存储模块,有效减少IO开销
我的答案: AD:利用多线程来执行具体的任务; Executor中有一个BlockManager存储模块,有效减少IO开销;正确答案: AD:利用多线程来执行具体的任务; Executor中有一个BlockManager存储模块,有效减少IO开销;
 
2分

三. 简答题(共1题,20分)

11. (简答题, 20分)以下题目二选一: 1、请写出三个大数据在人类生活中应用的实例,并谈谈自己对大数据的看法。 2、编程实践:参考教程https://dblab.xmu.edu.cn/blog/4322/,任意选择以下一种方式通过Spark API 编写一个独立应用程序。 (一)使用sbt对Scala独立应用程序进行编译打包 (二)使用Maven对Java独立应用程序进行编译打包 (三)使用Maven对Scala独立应用程序进行编译打包 并截图给出代码及运行结果。

我的答案:
18分

交通领域

智能交通系统:通过在道路上安装的大量传感器收集车流量、车速、拥堵情况等数据。这些大数据经过分析处理后,可以实现交通信号灯的智能调控。例如,在高峰时段根据主干道和支干道的车辆数量动态调整绿灯时长,减少车辆等待时间和道路拥堵。此外,还能为司机提供实时路况信息,推荐最优行驶路线,帮助人们节省出行时间。

医疗保健领域

疾病预测与预防:医疗机构收集大量患者的病历数据、生活方式数据(如饮食、运动习惯、吸烟情况等)。利用大数据分析技术,可以挖掘出疾病发生的模式和风险因素。比如,通过分析大量糖尿病患者的数据,发现某些特定基因、饮食习惯与糖尿病发病的关联,从而可以对具有高风险因素的人群提前进行干预和预防。同时,在疫情期间,大数据可用于追踪疫情传播路径、预测疫情发展趋势,辅助政府和卫生部门制定防控策略。

商业营销领域

个性化推荐系统:电商平台和在线视频、音乐等流媒体服务拥有用户的浏览历史、购买行为、评分等海量数据。基于这些大数据,平台能够为每个用户建立个性化的偏好模型。例如,电商平台根据用户之前购买的商品类型、浏览过的商品页面,向用户推荐他们可能感兴趣的商品;在线视频平台根据用户的观看历史推荐符合其口味的影片或剧集,提高用户体验和平台的销售额。

对大数据的看法

积极方面:

提高决策的科学性:大数据为各个领域提供了丰富、全面的数据支持,使得决策不再依赖于主观判断或有限的样本信息。无论是政府制定政策、企业规划战略还是医疗机构诊断病情,都可以通过对大数据的分析挖掘出隐藏在其中的规律和趋势,从而做出更准确、更合理的决策。

提升效率和服务质量:在生活中的应用实例表明,大数据能够优化资源分配和业务流程。像交通中的智能调控和商业中的个性化推荐,都极大地提高了效率。同时,也为用户提供了更贴心、便捷的服务体验,满足了人们日益多样化的需求。

促进创新:大数据的挖掘和分析激发了新的商业模式和科研方向。企业可以发现新的市场需求和商业机会,科研人员可以从大量的数据中找到新的研究课题和解决方案,推动社会不断向前发展。

消极方面:

隐私问题:大数据的收集涉及到大量的个人信息,包括我们的位置、行为习惯、健康状况等敏感数据。如果这些数据的收集、存储和使用过程中缺乏严格的安全措施和监管,很容易导致个人隐私泄露,给用户带来不必要的麻烦,如骚扰电话、诈骗等。

数据质量和偏差问题:数据的来源广泛且复杂,可能存在数据不准确、不完整或有偏差的情况。如果依据这样的数据进行分析和决策,可能会得出错误的结论。例如,在医疗研究中,如果样本数据存在偏差,可能会影响对疾病的诊断和治疗方案的制定。

可能加剧社会不平等:大数据的应用往往需要一定的技术和资源支持,那些拥有先进技术和雄厚资金的企业或组织更有能力利用大数据获取利益。这可能导致在商业竞争、社会资源分配等方面进一步加剧不平等现象,一些小型企业或弱势群体可能因无法充分利用大数据而处于劣势。

总之,大数据在给我们的生活带来巨大便利和机遇的同时,也带来了诸多挑战。我们需要在充分发挥其优势的同时,重视并解决相关问题,确保大数据的合理使用和发展。

posted @ 2024-12-25 02:00  cvjj  阅读(6)  评论(0)    收藏  举报