11.7

一. 单选题(共5题,10分)

  1. (单选题, 2分)在实际应用中,大数据处理不包括哪些类型?
    A. 基于实时数据流的数据处理
    B. 基于离线数据的处理
    C. 复杂的批量数据处理
    D. 基于历史数据的交互式查询
    我的答案: A:基于实时数据流的数据处理;正确答案: B:基于离线数据的处理;
    0分
  2. (单选题, 2分)下列关于Spark的描述,错误的是哪一项?
    A. Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发
    B. Spark在2014年打破了Hadoop保持的基准排序纪录.
    C. Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度
    D. Spark运行模式单一
    我的答案: D:Spark运行模式单一;正确答案: D:Spark运行模式单一;
    2分
  3. (单选题, 2分)下列说法哪项有误?
    A. 相对于Spark来说,使用Hadoop进行迭代计算非常耗资源
    B. Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据
    C. Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念
    D. Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案
    我的答案: C:Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念;正确答案: C:Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念;
    2分
  4. (单选题, 2分)下列说法错误的是?
    A. RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task
    B. Application是用户编写的Spark应用程序
    C. 一个Job包含多个RDD及作用于相应RDD上的各种操作
    D. Directed Acyclic Graph反映RDD之间的依赖关
    我的答案: A:RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task;正确答案: A:RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task;
    2分
  5. (单选题, 2分)下列关于RDD说法,描述有误的是?
    A. 一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合
    B. 每个RDD可分成多个分区,每个分区就是一个数据集片段
    C. RDD是可以直接修改的
    D. RDD提供了一种高度受限的共享内存模型
    我的答案: C:RDD是可以直接修改的;正确答案: C:RDD是可以直接修改的;
    2分
    二. 多选题(共5题,10分)
  6. (多选题, 2分)Apache软件基金会最重要的三大分布式计算系统开源项目
    A. Hadoop
    B. Spark
    C. Storm
    D. Hive
    我的答案: ABC:Hadoop; Spark; Storm;正确答案: ABC:Hadoop; Spark; Storm;
    2分
  7. (多选题, 2分)Spark具有的主要特点包括:
    A. 运行模式多样
    B. 运行速度快
    C. 容易使用
    D. 通用性
    我的答案: ABCD:运行模式多样; 运行速度快; 容易使用; 通用性;正确答案: ABCD:运行模式多样; 运行速度快; 容易使用; 通用性;
    2分
  8. (多选题, 2分)Scala的特性包括:
    A. Scala具备强大的并发性
    B. Scala语法复杂
    C. Scala兼容Java
    D. 运行速度快
    我的答案: ACD:Scala具备强大的并发性; Scala兼容Java; 运行速度快;正确答案: ACD:Scala具备强大的并发性; Scala兼容Java; 运行速度快;
    2分
  9. (多选题, 2分)Spark最主要的优点是()
    A. 计算模式只能是MapReduce
    B. Spark提供了内存计算
    C. 提供了单一数据集操作类型
    D. 基于DAG的任务调度执行机制
    我的答案: BD:Spark提供了内存计算; 基于DAG的任务调度执行机制;正确答案: BD:Spark提供了内存计算; 基于DAG的任务调度执行机制;
    2分
  10. (多选题, 2分)Spark所采用Executor的优点包括:
    A. 利用多线程来执行具体的任务
    B. 多线程之间的数据共享
    C. 存储模块全部都只能在内存中完成
    D. Executor中有一个BlockManager存储模块,有效减少IO开销
    我的答案: AD:利用多线程来执行具体的任务; Executor中有一个BlockManager存储模块,有效减少IO开销;正确答案: AD:利用多线程来执行具体的任务; Executor中有一个BlockManager存储模块,有效减少IO开销;
    2分
    三. 简答题(共1题,20分)
  11. (简答题, 20分)以下题目二选一: 1、请写出三个大数据在人类生活中应用的实例,并谈谈自己对大数据的看法。 2、编程实践:参考教程https://dblab.xmu.edu.cn/blog/4322/,任意选择以下一种方式通过Spark API 编写一个独立应用程序。 (一)使用sbt对Scala独立应用程序进行编译打包 (二)使用Maven对Java独立应用程序进行编译打包 (三)使用Maven对Scala独立应用程序进行编译打包 并截图给出代码及运行结果。
    我的答案:18分
    看法:提升效率与体验:大数据显著提高了企业的运营效率和用户体验。个性化推荐、智能调度等技术让服务更加贴近用户需求,这对于商业模式的创新和市场竞争力的提升至关重要。

数据隐私与安全:随着大数据应用的深入,用户的个人隐私面临更大风险。很多用户对数据收集和使用的透明度不够,因此企业在利用大数据时应加强对用户隐私的保护,建立信任关系。

决策支持:大数据为企业提供了科学的决策依据,使得管理层能够更加精准地进行市场分析、产品研发和战略规划。这种数据驱动的决策模式,将在未来的商业环境中变得越来越重要。

实例:阿里巴巴的智能推荐:阿里巴巴通过分析用户的购物行为和偏好,利用大数据技术为每个用户提供个性化的购物推荐。这种精准推荐不仅提高了用户的购物体验,还显著提升了转化率。

腾讯的社交网络分析:腾讯通过微信和QQ等社交平台,收集用户的社交数据。利用大数据分析,腾讯能够识别用户的社交网络,推送相关内容和广告,增强用户的活跃度。

美团的餐饮服务优化:美团通过分析用户的订餐数据、评价和位置信息,优化餐饮推荐和配送服务。通过大数据,美团能够更好地预测用户的需求,提高订单的处理效率。

滴滴出行的动态调度:滴滴利用大数据分析实时交通情况和用户的打车需求,进行动态调度。这不仅提高了司机的接单率,还大幅减少了用户的等待时间。

京东的供应链管理:京东通过大数据分析用户的购买行为和库存数据,优化供应链管理。这种方法使得京东能够更高效地管理库存,减少成本,同时

posted @ 2024-11-05 14:21  aallofitisst  阅读(29)  评论(0)    收藏  举报