Sekkoo的技术博客
个人头像
Sekkoo
OCP认证 数据库 后端开发
后端开发人员,乐于分享技术心得与实战经验。专注于后端开发、数据库、云计算等技术方向,不定期掉落技术认证题库,欢迎交流!
练习题中的所有题目均非来源于官方渠道。它们是通过网络公开信息、匿名用户贡献和社区讨论整理而成,不代表任何官方考试内容。

(精解版)OCI Data Science Professional (1Z0-1110-25)练习题


法律声明与使用条款

© [sekkoo/https://www.cnblogs.com/sekkoo] 保留所有权利。

本材料中的所有解析内容均为作者投入大量时间和精力完成的原创劳动成果。为了保护这份成果并确保其用于正确目的,特此声明以下使用条款:


1. 免责声明与内容来源

本材料中的题目内容是基于网络社区的公开讨论和匿名贡献进行整理和重构的,不代表任何官方考试内容。所有详细解析均为作者独立分析和整理,与 Oracle 公司无任何关联,也未获得其官方授权。


2. 使用条款

仅限个人学习使用: 本解析内容仅供您个人非商业性学习和研究使用。严禁将本材料用于任何形式的商业目的,包括但不限于出售、出租、广告或作为付费服务的组成部分。

严禁滥用与作弊: 本人坚决反对将本材料用于任何形式的作弊行为。我的解析旨在帮助您理解知识,而不是提供捷径。任何将本材料用于违反考试规则的行为,都将受到最强烈的谴责。

转载与分享规范: 未经本人的明确书面授权,严禁对本解析内容进行任何形式的转载、分发、复制或上传至公共平台。如果您希望分享,请直接分享本内容的原始链接,以尊重版权。


3. 法律追责

对于任何侵犯本声明的行为,包括但不限于非法复制、商业盗用,本人将保留追究法律责任的权利。

通过使用本材料,您即表示同意并遵守以上所有条款。感谢您的理解与支持,希望这些解析能真正帮助您通过考试。


Oracle 云基础设施文档:https://docs.oracle.com/en-us/iaas/Content/home.htm

如发现内容错误,恳请不吝赐教,以便修正完善。

Q1

英文原题

Which statement about dynamic groups is true?

A. They define what Data Science principals, such as users and resources, have access to in OCI.

B. They are individual users that are grouped in OCI by administrators and granted access to Data Science resources within compartments.

C. They have matching rules, where is replaced by the identifier of the compartment created for Data Science.

D. They are a logical grouping of resources that can be accessed only by certain groups that have received administrator permission.


正确答案

C. They have matching rules, where is replaced by the identifier of the compartment created for Data Science.


中文题目与选项

关于动态组的说法,下面哪项是正确的?

A. 它们定义哪些数据科学主体(如用户和资源)有权访问OCI中的资源。

B. 它们是管理员在OCI中分配并添加个体用户组成的用户组,可访问compartment内的数据科学资源。

C. 它们有一套匹配规则,其中 由为数据科学创建的隔间标识符替代。

D. 它们是资源的逻辑分组,只有获得管理员权限的特定组才能访问。


当你创建动态组(dynamic group)时,你需定义一组匹配规则来确定该组的成员。

选项解析

  1. A:意思是动态组定义谁可以访问什么,但实际上动态组本身并不“定义权限”,而是通过匹配规则动态收集资源,访问权限依靠策略(policy)赋予,因此此项描述不准确。
  2. B:这是对“用户组(user group)”的描述,动态组不是管理员手动添加用户组成的,而是自动根据规则包含相关资源,不正确。
  3. C:准确描述了动态组的本质——“通过匹配规则(如包含特定compartment-id)自动收录资源作为成员”,是正确答案。
  4. D:类似对普通资源分组/compartment的表述,而非对动态组核心特性(动态匹配规则)的描述,不准确。

相关知识点总结

  • 动态组(Dynamic group) 是OCI中一种自动分组机制,通过一组规则自动将满足条件的资源(如notebook、job、deployment等)归入该组,组成员可以随着资源的变化动态变动。
  • 动态组常用于支持无人工交互的服务身份认证,需搭配IAM策略使用,令其资源主体获得访问OCI各类服务的权限。
  • 匹配规则包括资源类型、资源所在compartment等限制条件,实现“只要资源出现于某compartment、拥有指定属性即自动加入组”。
  • 用户组(User group)由具体用户/账号手动加入,动态组则由资源自动归类,完全不同。

Q2

英文原题

Which statement about resource principals is true?

A. A resource principal is a feature of IAM that enables resources to be authorized principal actors.

B. When you authenticate using a resource principal, you need to create and manage credentials to access OCI resources.

C. A resource principal is not a secure way to authenticate to resources, compared to the OCI configuration and API key approach.

D. The Data Science service does not provide authentication via a notebook session's or job run’s resource principal to access other OCI resources.


中文题目与选项

关于资源主体(resource principal),下面哪项说法是正确的?

A. 资源主体是IAM(身份访问管理)的一个特性,使资源本身可以作为受授权的主体执行操作。

B. 当你用资源主体认证时,你需要创建和管理凭证以访问OCI资源。

C. 相比于OCI配置文件和API Key方式,资源主体不是一种安全的认证方法。

D. Data Science服务不支持通过notebook会话或job运行的资源主体来访问其他OCI资源。


正确答案

A. A resource principal is a feature of IAM that enables resources to be authorized principal actors.


选项解析

  • 资源主体(Resource Principal):OCI中一种基于IAM的认证方式,将云资源(如notebook、作业、数据库等)本身赋予“身份”,可作为主体直接通过自身的token自动认证访问其他OCI服务。
  1. A:这是关于资源主体最准确、专业的定义。资源主体是IAM的功能,让云资源自身具备独立身份,可以作为“主体”来访问(和被授权访问)各类云服务资源。(正确答案)
  2. B:错误。资源主体方式下,凭证和会话token由系统自动分配和轮换,用户无需手动生成和管理凭证。
  3. C:错误。资源主体是一种高度安全且推荐的认证机制,通常比手动配置API Key更安全。
  4. D:错误。Data Science服务实际就是推荐用notebook/job的资源主体实现无缝认证访问其他OCI资源。

数据科学环境下OCI API认证方式

数据科学服务中的资源(如notebook会话、作业、模型部署)可运行自定义代码,常需与其他OCI服务(如对象存储、数据流等)集成,访问API。

  • 调用OCI REST API前必须“认证”(authentication),即让OCI识别你的身份。
  • 认证≠授权。认证 即 “如何证明你是谁”。

认证方式一:资源主体(Resource Principal)

  • 定义:Resource Principal是OCI的IAM特性,允许云资源(如notebook、作业、部署)本身成为API的“主体”,具备自动认证身份并访问资源的能力。
  • 机制
    • 系统为每个资源自动分配数字证书并定期轮换,无需在代码中显式留存或上传凭证。
    • 推荐用于自动化流程(如作业运行),安全性高。
    • 默认在数据科学服务(如notebook/session/job等)中可用。
    • 需配合动态组与策略授权,实现自动认证+自动授权。
    • 注意:采用这种方式时,认证Token有15分钟缓存,如策略或组变更需要等缓存失效(15分钟)后生效。
  • 接口调用指定方式:不同SDK/CLI设置资源主体方式略有差异,需查看接口具体用法。

认证方式二:个人配置文件及API密钥(config+API Key)

  • 定义:即IAM用户通过config配置文件和API密钥进行认证,适用于本地或有交互界面的环境(如notebook)。
  • 步骤
    1. 在Notebooks的OCI目录下上传/生成oci_config配置文件;
    2. 配置相关profile信息,上传/关联.pem密钥文件;
    3. 可通过“api_keys样例notebook”直接生成/设置config和key。
  • 场景:适用于需要以个人IAM身份访问,或者需要手动管理认证的场合;也是部分SDK/CLI的默认认证方式。

5. 两种方式的对比与选择

资源主体(Resource Principal) 配置+API Key方式
认证主体 资源本身 IAM用户本身
推荐场景 自动化、无界面作业、生产安全 练习、交互探索、个人开发
优势 高安全、自动轮换、无需人为上传凭证 灵活,“本地化/自定义”认证
配置难度 零配置,自动启用 需手动传输配置与密钥
缺点 仅适用于有资源主体能力的资源 安全性需自己管理,密钥被泄隐患

Q3

英文原题

Which allows the sharing and loading back of ML models into a Notebook session?

A. Model taxonomy
B. Model provenance
C. Model deployment
D. Model catalog


正确答案

D. Model catalog

中文题目与选项

哪项功能允许在Notebook会话之间共享和重新加载机器学习模型?

A. 模型分类(Model taxonomy)

B. 模型溯源(Model provenance)

C. 模型部署(Model deployment)

D. 模型目录(Model catalog)


选项解析

  1. A. Model taxonomy(模型分类)

    • 主要指对模型的分类系统,与模型的存储、加载或共享无关。
  2. B. Model provenance(模型溯源)

    • 指模型的来源、历史、元数据等,用于追溯和记录模型,但本身不具备共享和加载的能力。
  3. C. Model deployment(模型部署)

    • 指将模型上线提供在线预测服务(如API接口),与直接在Notebook间存储、共享和重新加载无关。选这个是错误的。
  4. D. Model catalog(模型目录)

    • 正确答案
    • 模型目录是OCI数据科学平台用于集中存储、管理、共享和重用机器学习模型的机制。团队成员可以将模型上传至模型目录,并在任意Notebook会话中再次加载和使用,实现便捷的团队协作和复用。

相关知识点总结

  • Model catalog(模型目录) 是云数据科学平台中支持团队协作与模型可重复使用的关键功能,集中管理所有存储的模型。用户可以将训练好的模型存入目录、共享给团队及跨Notebook会话重新加载。
  • Model deployment(模型部署) 主要目的是将模型API化,使外部调用实现实时预测,不用于Notebook之间的模型共享或回溯加载。
  • 其他选项仅涉及模型的分类或溯源信息,与核心需求无关。

Q4

英文原题

Which OCI Data Science interaction method can function without the need of scripting?

A. Language SDKs
B. REST API
C. CLI
D. OCI Console


正确答案

D. OCI Console


中文题目与选项

下列哪种OCI Data Science交互方式可以无需编写脚本即可完成操作?

A. 语言SDK(Language SDKs)

B. REST API

C. 命令行工具(CLI)

D. OCI控制台(OCI Console)


选项解析

  1. A. Language SDKs

    • SDK需用特定编程语言主动开发脚本,不能脱离脚本自动操作。
  2. B. REST API

    • 需发HTTP请求,实际上也需要写脚本或完成相关代码实现。
  3. C. CLI

    • 虽然不用编写代码,但仍然需要至少写命令行指令,某种程度上也算“脚本或命令行内容”。
  4. D. OCI Console(正确答案)

    • OCI控制台是基于Web浏览器的可视化操作界面,用户通过点击菜单、填写表单等方式管理Notebook、项目、模型等各类Data Science资源,全程“不需要写任何脚本或命令”,最适合不具备开发基础的用户或希望简捷入门的用户使用。

相关知识点总结

  • OCI Console是OCI云服务的Web管理门户,面向所有用户,无需编程背景即可进行资源管理、配置、监控以及数据科学全流程操作。
  • 其他选项(SDK、API、CLI)都要求用户有一定编程或命令行基础,适合自动化和运维需求,但门槛更高。
  • 实际项目中日常管理和多数资源操作,建议优先使用OCI Console进行,无需任何脚本或代码。

Q5

英文原题

What does the Data Science Service template in Oracle Resource Manager (ORM) NOT automatically create?

A. Dynamic groups
B. Individual Data Science users
C. Policies for a basic use case
D. Required user groups


中文题目与选项

Oracle Resource Manager (ORM)中的Data Science服务模板在自动配置时,不会自动创建以下哪项?

A. 动态组(Dynamic groups)

B. 独立的数据科学用户(Individual Data Science users)

C. 用于基本场景的策略(Policies for a basic use case)

D. 必需的用户组(Required user groups)


正确答案

B. Individual Data Science users


选项解析

  1. A. 动态组

    • ORM模板会自动创建动态组,作为资源/策略自动生效的一部分。
  2. B. 独立数据科学用户  (正确答案)

    • ORM模板不会自动创建每一个具体的数据科学用户(即真实用户账号)。需要管理员手动为每个用户单独创建。
  3. C. 基本策略

    • ORM模板会针对典型用例自动生成所需的策略。
  4. D. 必需的用户组

    • ORM模板会自动创建必须的用户组,用于后续添加成员。

使用OCI Resource Manager快速配置Data Science租户


1. 背景说明

  • 手动配置租户(Tenancy)较为繁琐,涉及用户组、动态组、策略等反复设置。
  • 使用 Oracle Resource Manager(ORM) 中的“Data Science Service模板”,可“一键式”自动创建常用所需资源,简化配置流程。

2. Data Science Service模板自动化内容

  • 自动创建内容包括:
    1. 用户组(User Group):名称可自定义
    2. 动态组(Dynamic Group):名称可自定义,匹配规则覆盖三类Data Science服务资源
      • datasciencenotebooksession(笔记本会话)
      • datasciencemodeldeployment(模型部署)
      • datasciencejobrun(作业任务)
    3. 策略(Policy):名称可自定义,自动生成以下授权语句:
      • 允许用户组管理该compartment下所有数据科学资源(data-science-family)
      • 允许动态组管理compartment下数据科学资源
      • 允许用户组读取compartment内指标(metrics)
      • 允许动态组使用compartment下的日志内容(log-content)

Q6

英文原题

Which feature of Oracle Cloud Infrastructure Data Science provides an interactive coding environment for building and training machine learning models?

A. Projects
B. Model catalog
C. Notebook session
D. Jobs


正确答案

C. Notebook session


中文题目与选项

Oracle Cloud Infrastructure Data Science中的哪个功能提供了用于构建和训练机器学习模型的“交互式编程环境”?

A. 项目(Projects)

B. 模型目录(Model catalog)

C. Notebook会话(Notebook session)

D. 作业(Jobs)


选项解析

  1. A. 项目(Projects)

    • 项目是用于管理、归档和协作的容器,本身不提供交互式编程环境。
  2. B. 模型目录(Model catalog)

    • 专用于存储、管理和共享已训练好的模型,也不提供代码开发和训练环境。
  3. C. Notebook session(Notebook会话)

    • 正确答案
    • Notebook session即交互式JupyterLab编程环境,用户可以直接编写、调试、训练与测试机器学习代码,是典型的数据科学开发入口。
  4. D. 作业(Jobs)

    • 用于运行批量、自动化任务,适合生产环境调度,不提供交互式可编程界面。

相关知识点总结

  • Notebook session是OCI Data Science的核心开发入口,基于JupyterLab,集成主流Python及开源AI库,适合数据探索、特征工程、模型开发和调试等交互式操作。
  • Projects用于归档和团队协作,Model catalog管模型资产,Jobs侧重批处理和自动化运维。
  • 只有Notebook session具备“实时运行+编辑+可视化输出”的交互式体验。

Q7

英文原题

What is feature engineering in machine learning used for?

A. To help understand the data set features
B. To transform existing features into new ones
C. To interpret ML models
D. To perform parameter tuning


正确答案

B. To transform existing features into new ones


中文题目与选项

机器学习中的“特征工程”(feature engineering)主要用于什么?

A. 帮助理解数据集的特性

B. 转换已有特征,创造新特征

C. 解释机器学习模型

D. 执行参数调优


选项解析

  1. A. 帮助理解数据集的特性

    • 虽然探索性分析帮助理解特征,但“特征工程”不仅仅是“理解”,不够准确。
  2. B. 转换已有特征,创造新特征

    • 正确答案
    • 特征工程的核心即是对原始特征进行清洗、转换、组合、派生,生成对建模更有效的新特征(如归一化、离散化、组合、特征抽取等),以提升模型性能和泛化能力。
  3. C. 解释机器学习模型

    • 解释模型属于模型可解释性范畴,不是特征工程的直接目的。
  4. D. 执行参数调优

    • 参数调优是模型训练环节,不是特征工程。

相关知识点总结

  • 特征工程:机器学习流程中,将原始数据“加工”成对模型训练更有价值的特征集,包括清洗、归一化、衍生、编码、组合等一系列数据处理操作。
  • 其目标是增强模型表示能力,减少噪声,提高泛化——是提升ML系统性能的关键前置步骤。
  • 正确区分:模型解释是Explainability/Interpretability;参数调优面向算法本身,均非特征工程本质任务。

Q8

英文原题

What happens when a notebook session is deactivated?

A. The underlying compute instance stops.
B. The block volume attached to the Notebook session is permanently deleted.
C. Compute cost increases due to frequent deactivation.
D. The data on the boot volume is not preserved.


正确答案

A. The underlying compute instance stops.


题干中文解析

当 notebook 会话(如 OCI 数据科学服务中的 Jupyter Notebook 会话)被停用(deactivate)时,会发生什么?

  1. A. The underlying compute instance stops.
    底层的计算实例停止运行。

  2. B. The block volume attached to the Notebook session is permanently deleted.
    挂载在 Notebook 会话上的块存储卷会被永久删除。

  3. C. Compute cost increases due to frequent deactivation.
    由于频繁停用,计算成本会上升。

  4. D. The data on the boot volume is not preserved.
    启动卷上的数据无法保存。


选项解释

  1. A. The underlying compute instance stops.
    底层的计算实例停止运行。
    解析:Notebook 停用意味着提供运行环境的虚拟机/计算实例会关机停止,但资源不会被销毁,此举通常可以节省费用。

  2. B. The block volume attached to the Notebook session is permanently deleted.
    挂载在 Notebook 会话上的块存储卷会被永久删除。
    解析:这并不正确。停用会话不会删除数据卷,数据会被保留。

  3. C. Compute cost increases due to frequent deactivation.
    由于频繁停用,计算成本会上升。
    解析:错误。事实上,停用实例通常会降低成本,因为停止后的实例不再产生计费。

  4. D. The data on the boot volume is not preserved.
    启动卷上的数据无法保存。
    解析:错误。Notebook 停用时,数据卷/启动盘数据是被持久化保存的,并不会丢失。


相关知识点总结

  • Notebook 会话的“停用”常指暂停计算资源,底层虚拟机/实例会停止,但数据和配置不会丢失,相应的数据盘、启动盘等资源会保持保留状态。
  • 这样做的好处是节省云资源费用(只为持久化存储计费,不为计算实例计费)。
  • 只有明确“终止/删除”会话才会导致数据永久删除。
  • 频繁停用并不会增加成本,合理利用会降低整体费用。

Q9

英文原题

Which is a unique feature of the published Conda environment?

A. It provides a comprehensive environment to solve business use cases.
B. It allows you to save the Conda environment to an Object Storage bucket.
C. It provides availability on Notebook session reactivation.
D. It allows you to save the Conda environment in a block volume.


正确答案

B. It allows you to save the Conda environment to an Object Storage bucket.


中文题目及解析

题目翻译
下列哪一项是已发布 Conda 环境的独特特性?

  1. A:它提供了一个全面的环境来解决业务用例。

  2. B:它允许你将 Conda 环境保存到对象存储桶(Object Storage bucket)。

  3. C:它在 Notebook 会话重新激活时提供可用性。

  4. D:它允许你将 Conda 环境保存到块存储卷中。

选项解析

  1. A:它提供了一个全面的环境来解决业务用例。

    • 错误。
    • 虽然 Conda 环境确实很全面,但这并不是“已发布”环境特有的独特性。
  2. B:它允许你将 Conda 环境保存到对象存储桶(Object Storage bucket)。

    • 正确答案。
    • 已发布的 Conda 环境的独特之处在于能将整个环境打包存放在对象存储桶中,便于分享、迁移和持久化。
  3. C:它在 Notebook 会话重新激活时提供可用性。

    • 错误。
    • 这只是标准功能,并不是“已发布”环境的独特功能。
  4. D:它允许你将 Conda 环境保存到块存储卷中。

    • 错误。
    • 块存储通常保存数据或工作目录,不是 Conda 环境专用的独特特性。

Conda环境的三种类型

  1. 数据科学Condas(Managed/curated by Oracle)

    • 官方预置,多为主流算法、任务或行业快速上手环境。
    • 如:PyTorch、TensorFlow专用环境,医疗健康、EDA等领域组合包。
    • 可过滤查询,仅显示这类官方环境。
  2. 发布型Conda环境(Published Conda Environments)

    • 由用户自定义构建、发布及管理。
    • 存储于对象存储(Object Storage bucket),实现团队共享、跨notebook会话复用、模型复现。
    • 可直接用于作业调度和模型线上部署。
  3. 已安装Conda环境(Installed Conda Environments)

    • 已在当前notebook会话/块存储上安装的所有环境。
    • 可由官方环境、已发布环境、纯自定义配置混合组成。
    • 停用再激活notebook时,环境随数据盘自动复原。

Q10

英文原题

Which model has an open source, open model format that allows you to run machine learning models on different platforms?

A. PySpark
B. TensorFlow
C. ONNX
D. PyTorch


正确答案

C. ONNX


中文题目及解析

题目翻译
哪种模型具备开源、开放的模型格式,使你能够在不同平台上运行机器学习模型?

A:PySpark

B:TensorFlow

C:ONNX

D:PyTorch

选项解析

  1. A:PySpark

    • 错误。
    • PySpark 是 Spark 的 Python API,主要用于大数据分布式计算本身,不是模型格式。
  2. B:TensorFlow

    • 错误。
    • TensorFlow 是一个机器学习框架,有自己的模型存储格式,但不是平台无关的开放模型格式。
  3. C:ONNX

    • 正确答案。
    • ONNX(Open Neural Network Exchange)是一个开源、开放的模型交换格式。它允许不同框架(如 PyTorch、TensorFlow、MXNet 等)训练的模型可以在不同平台和引擎上部署和运行,非常适合模型跨平台和通用性需求。
  4. D:PyTorch

    • 错误。
    • PyTorch 是一个深度学习框架,有自己的模型格式,也可以导出为 ONNX,但其本身不是一个通用模型格式。

相关知识点总结

  • ONNX 是一个开源的、开放的模型包,允许你将不同机器学习(ML)库训练出来的模型,保存成一种独立于训练库的单一可移植格式。
  • TensorFlow 和 PyTorch 是开源深度神经网络的机器学习框架。
  • PySpark 则用于处理海量数据。

Q11

英文原题

What is a conda environment?

A. An environment deployment system on Oracle AI
B. A collection of kernels
C. A system that manages package independencies
D. An open source package and environment management system


正确答案

D. An open source package and environment management system


中文题目及解析

题目翻译
什么是 conda 环境?

A:Oracle AI 上的环境部署系统

B:内核(kernels)的集合

C:管理包“独立性”的系统

D:一个开源的包和环境管理系统

选项解析

  1. A:Oracle AI 上的环境部署系统

    • 错误。
    • Conda 并不仅限于 Oracle AI,而是跨平台的通用环境管理工具。
  2. B:内核(kernels)的集合

    • 错误。
    • Conda 环境是包和依赖的集合,而不是只包含内核。
  3. C:管理包“独立性”的系统

    • 错误(表述不准确)。
    • Conda 实际上是管理包“依赖性”并隔离环境,但常用说法为“依赖管理”,此项表述不准确且不全面。
  4. D:一个开源的包和环境管理系统

    • 正确答案。
    • Conda 是一个通用的、开源的包管理和环境管理工具,支持多语言(如 Python、R),能够帮助用户隔离不同项目的依赖环境。

相关知识点总结

  • 什么是 Conda:Conda 是一个开源的包管理器和环境管理系统,广泛应用于数据科学、ML、科研领域。
  • 功能:可管理不同项目的包依赖、版本隔离,避免“依赖地狱”问题。
  • 适用场景:支持创建多个独立的环境,对应不同项目或需求,确保彼此不冲突。

Q12

英文原题

Which activity of managing a conda environment requires the conda environment to be activated in your terminal?

A. Cloning a Conda environment
B. Installing a Conda environment
C. Publishing a Conda environment
D. Modifying a Conda environment


正确答案

D. Modifying a Conda environment


中文翻译

管理 conda 环境的哪些操作需要你在终端中先激活该 conda 环境?

A. 克隆(cloning)一个 Conda 环境
B. 安装(installing)一个 Conda 环境
C. 发布(publishing)一个 Conda 环境
D. 修改(modifying)一个 Conda 环境


选项解析

  1. A:克隆 Conda 环境

    • 克隆环境通常不需要事先激活目标环境,只需指定源环境和新环境名称即可。
  2. B:安装 Conda 环境

    • 安装新环境(如 conda create)通常不需要激活环境,只需在 base 环境进行。
  3. C:发布 Conda 环境

    • 发布环境指的是导出环境配置或上传,通常依赖配置文件,也不一定要求激活。
  4. D:修改 Conda 环境

    • 正确答案。
    • 修改(如安装、删除库包、更新包等)需要先在终端激活目标环境,这样命令才会作用在当前激活的环境下。

相关知识点总结

  • 激活环境(activate)作用:只有激活了某个环境,才确保所有包管理操作(如 pipconda install)都是针对该环境进行,而不是 base 或其他环境。
  • 常见误区:克隆、创建、导出等特殊操作不需要激活目标环境,只需指定名称或路径即可;而日常维护(安装/卸载包)必须先激活。
  • 命令提示:激活方式一般为 conda activate 环境名,激活后才可以对该环境进行包的增删改等操作。

Q13

英文原题

What is an accurate description of Git?

A. Git is a centralized version control system that allows data scientists and developers to track copious amounts of data.
B. Git is a distributed version control system that allows you to track changes made to a set of files.
C. Git is a centralized version control system that allows you to revert to previous versions of files as needed.
D. Git is a distributed version control system that protects teams from simultaneous repo contributions and merge requests.


正确答案

B. Git is a distributed version control system that allows you to track changes made to a set of files.


中文翻译

关于 Git,以下哪项描述是准确的?

A. Git 是一个集中式版本控制系统,使数据科学家和开发人员能够跟踪大量数据。
B. Git 是一个分布式版本控制系统,允许你跟踪对一组文件所做的更改。
C. Git 是一个集中式版本控制系统,允许你在需要时还原到文件的先前版本。
D. Git 是一个分布式版本控制系统,可保护团队免受同时的代码仓库贡献和合并请求的影响。


选项解析

  1. A:Git 是集中式版本控制,用于大量数据跟踪

    • 错误。Git 是分布式的,不是集中式版本控制系统(CVCS)。
  2. B:Git 是分布式版本控制系统,可以跟踪对一组文件的更改

    • 正确答案。
    • 这是最准确、简明并且反映 Git 本质特点的描述。
  3. C:Git 是集中式且支持文件版本回退

    • 错误。Git 支持回退,但它是分布式版本控制,不是集中式。
  4. D:分布式、保护团队免受同时贡献和合并请求影响

    • 错误。虽然 Git 可管理多用户协作和合并,但不能“保护”团队免受这些操作的影响(仍需人工或软件解决冲突)。表述错误。

相关知识点总结

  • Git 的定义:Git 是一个分布式版本控制系统(DVCS),用于管理源代码和文本文件的历史修改过程。
  • 分布式特点:每个用户本地都有完整仓库和历史记录,无需始终依赖中心服务器。
  • 主要功能:记录、跟踪、还原、更改和分支、协作等,广泛用于软件开发、科研等领域。
  • 集中式 vs. 分布式:CVCS(如 SVN)需要中心服务器,DVCS(如 Git)则更灵活,支持离线开发、多地协作。

Q14

英文原题

Which CLI command allows a customized Conda environment to be shared with co-workers?

A. odsc conda install
B. odsc conda publish
C. odsc conda modify
D. odsc conda clone


正确答案

B. odsc conda publish


完整中文翻译

哪个 CLI 命令可以让自定义的 Conda 环境与同事共享?

A. odsc conda install
B. odsc conda publish
C. odsc conda modify
D. odsc conda clone


选项解析

  1. A:odsc conda install

    • 用于在本地安装包或环境,不能实现共享给他人。
  2. B:odsc conda publish

    • 正确答案。
    • 发布(publish)命令将自定义的 Conda 环境推送到一个可以共享的地方(比如对象存储、团队仓库等),方便与你的同事分享和协作。
  3. C:odsc conda modify

    • 修改本地的 Conda 环境配置,不涉及共享。
  4. D:odsc conda clone

    • 用于克隆本地或指定环境,便于自己使用,不提供环境的共享/发布。

相关知识点总结

  • odsc conda publish:常用于将本地配置好的 Conda 环境打包发布到公有/私有或对象存储仓库,以便被他人拉取和复用。
  • 团队协作优势:发布环境后,同事可以直接下载并激活相同环境,保证依赖一致,减少“环境不一致导致的问题”。
  • clone/modify/install 区别:install 只涉及本地依赖安装,clone 仅是自己复制环境,modify 仅用于个人本地调整,只有 publish 具备团队协作和环境共享功能。

Q15

英文原题

Where are OCI secrets stored?

A. Autonomous Data Warehouse
B. OCI Vault
C. Oracle Databases
D. OCI Object Storage


正确答案

B. OCI Vault


中文翻译

OCI 密钥(secrets)存储在哪里?

A. 自动化数据仓库(Autonomous Data Warehouse)
B. OCI 保险库(OCI Vault)
C. Oracle 数据库(Oracle Databases)
D. OCI 对象存储(OCI Object Storage)


选项解析

  1. A:自动化数据仓库

    • 错误。数据仓库主要用于数据分析和存储结构化数据。
  2. B:OCI 保险库(OCI Vault)

    • 正确答案。
    • OCI Vault 专门用于安全地存储加密密钥、密码、令牌等敏感数据,供云端其他服务安全调用,是密钥/机密存储的官方推荐方式。
  3. C:Oracle 数据库

    • 错误。数据库用于保存业务数据,并不专门用于安全机密管理。
  4. D:OCI 对象存储

    • 错误。对象存储一般用于存放非结构化数据(如文件、图片等),不适合安全机密。

OCI Vault 服务与密钥管理


1. OCI Vault 服务简介及重要性

  • 什么是 OCI Vault?
    • Oracle 管理的密钥与凭证集中管理服务。
    • 专为存储和管理敏感凭证(如数据库密码、访问令牌、加密密钥等)设计。
    • 避免将敏感信息硬编码在本地文件或代码中,防范凭证泄露风险。
  • 数据科学场景下的意义
    • 数据科学工作流程需连接多种服务,常会用到敏感凭证。
    • Vault 为凭证提供安全存储与统一管理,按需检索。

2. 支持的加密算法与 OCI 集成

  • 支持三种主流加密算法
    • AES(对称加密)
    • RSA、ECDSA(非对称加密)
  • 集成性强
    • 支持 OCI SDK、CLI、REST API 及 ADS SDK 调用
    • 可与多种 OCI 服务配合实现自动密钥查找、凭证管理

3. Vault 的核心组成

  • Vault 本身
    • 逻辑容器,用来存储 keys(密钥)和 secrets(机密)
    • 两种类型
      • 虚拟专用 Vault(Virtual Private Vault):独立分区,隔离性更好,支持对象存储备份、灾备及跨区复制
      • 共享分区 Vault:与其他客户共用 HSM 分区,无备份功能但成本更低
  • 密钥(Keys)
    • 用于加密、解密、数字签名等
    • 三类密钥
      1. 主加密密钥(Master Encryption Key):用户自建或导入,控制算法、密钥形状/长度
      2. 数据加密密钥(Data Encryption Key):由主密钥派生,仅用于具体数据加密,被主密钥“包裹”保护(信封加密)
      3. 包裹密钥(Wrapping Keys):常用于保护数据加密密钥等
  • 密钥生命周期管理
    • 支持密钥轮换(rotation),自动生成新版本
    • 版本控制:加密/签名时用当前版本,解密时 Vault 自动追溯找到曾用的旧版本
    • 轮换好处:减少密钥泄漏影响范围,提升数据安全性和合规性

Q16

Which step is a part of AutoML pipeline?

A. Model Saved to Model Catalog
B. Feature Extraction
C. Feature Selection
D. Model Deployment

答案:C. Feature Selection

中文题目和选项翻译

哪个步骤是 AutoML 管道的一部分?

A. 模型保存到模型目录
B. 特征提取
C. 特征选择
D. 模型部署

题解与选项分析

  • A: Model Saved to Model Catalog
    • 这通常是模型管理或部署的一部分,但不直接属于自动化机器学习(AutoML)流程的核心步骤。
  • B: Feature Extraction
    • 指从原始数据中提取有用的特征,是数据预处理的一环,但不特别算作AutoML流程中的关键步骤。
  • C: Feature Selection (正确答案)
    • 是AutoML管道中的典型步骤,用于选择对预测有重要贡献的特征,以提升模型的性能和效率。
  • D: Model Deployment
    • 属于模型生命周期的后期阶段,通常在训练和优化完成后进行,不是特定于AutoML的一个步骤。

AutoML概述

  • 自动化机器学习(AutoML: Automated Machine Learning):是一种自动化创建和优化机器学习模型的过程,帮助选择和调整模型、优化参数以提高学习效果。

AutoML方法

  • 贝叶斯优化(Bayesian Optimization):使用概率模型进行超参数配置的捕捉,以提高模型性能。
  • 推荐系统(Recommender Systems):将AutoML问题设定为推荐系统,寻找已知数据集相似性进行配置优化。
  • 遗传进化算法(Genetic Evolutionary Algorithms):如TPOT工具,通过进化算法优化机器学习管道。
  • Oracle AutoML特点:采用非迭代方法,提高效率并减少时间。

Oracle AutoML的优势

  • 允许完成整个机器学习周期,无需编写代码。
  • 自动化工作流程从数据集输入到多模型训练与评估。
  • 提高生产力并减少训练时间,通过算法选择、适应性采样、特征选择、模型调优实现。

AutoML主要步骤

  1. 算法选择(Algorithm Selection):

    • 使用元学习(Meta-learning)预测输入数据集最优算法。
  2. 适应性采样(Adaptive Sampling):

    • 从数据集的小样本开始迭代采样,评估特定算法的最优样本大小。
  3. 特征选择(Feature Selection):

    • 评价特征子集,并自动去除冗余或噪声特征。
  4. 模型调优(Model Tuning):

    • 高效调节模型超参数(Hyperparameters)以提高其准确性。

Oracle AutoML设计亮点

  • 支持并行度配置(n_jobs)及输出详细度(log level)。
  • 提供结果可视化与过程总结。
  • 支持用户设定时间预算并确保最佳模型返回。
  • 灵活算法选择与评分指标。

Q18

You are working for a bank. You are required to analyze customer accounts' access data and flag any irregular access attempts. Which OCI Data Science operator are you most likely to use?

A. Forecasting
B. Anomaly
C. PII

答案:B. Anomaly

中文题目和选项翻译

您在银行工作。您需分析客户账户的访问数据并标记任何不规则的访问尝试。您最可能使用哪个OCI数据科学操作符?

A. 预测
B. 异常检测
C. 个人身份信息

题解与选项分析

  • A: Forecasting
    • 预测通常用于预测未来趋势或行为,不适用于检测不规则访问行为。
  • B: Anomaly (正确答案)
    • 异常检测用于查找数据中的异常或不规则情况,适用于分析访问数据中的不正常访问尝试。
  • C: PII
    • 个人身份信息(PII)管理通常涉及保护个人数据,亦非检测异常访问的工具。

相关知识点总结

  • 异常检测在数据科学中用于识别与常态明显不同的数据点或行为。

异常值(outlier)可由错误或极端样本组成
可视化(如散点、箱线图)和统计方法区分异常
监督异常检测适合有标注数据(需要大量人工);无监督常见假设大部分数据是正常分布,少量为异常
机器学习异常检测以无监督为主

Q19

Which function represents the difference between the predictive value and the target value?

A. Optimizer function
B. Cost function
C. Update function
D. Fit function

答案:B. Cost function

中文题目和选项翻译

哪个函数表示预测值与目标值之间的差异?

A. 优化器函数
B. 成本函数
C. 更新函数
D. 拟合函数

题解与选项分析

  • A: Optimizer function
    • 优化器函数用于最小化或最大化目标函数(如成本函数),不直接表示预测与目标值的差异。
  • B: Cost function (正确答案)
    • 成本函数(或称为损失函数)用于量化预测值与真实目标值之间的差异。它是机器学习模型调整的重要依据。
  • C: Update function
    • 更新函数是训练过程中用于调整模型参数的机制,不直接量化预测与目标之间的差异。
  • D: Fit function
    • 拟合函数指训练模型对数据的匹配过程,而非直接量化差异的函数。

相关知识点总结

  • 成本(损失)函数在机器学习中用于计算模型预测与实际结果的误差。
  • 衡量误差的程度对于模型优化至关重要,因为优化算法会使用这个误差来调整模型参数。
  • 优化器在训练过程中负责使用梯度下降等方法来优化损失函数。
  • 拟合通常指模型的训练过程,而损失函数是其中一个用来监测训练效果的工具。

Q20

Which stage in the machine learning life cycle helps identify imbalances present in data?

A. Data Modeling
B. Data Exploration
C. Data Access
D. Data Monitoring

答案:B. Data Exploration

中文题目和选项翻译

  1. 机器学习生命周期的哪个阶段有助于识别数据中存在的不平衡?

A. 数据建模
B. 数据探索
C. 数据访问
D. 数据监控

题解与选项分析

  • A: Data Modeling
    • 数据建模阶段通常是进行预测模型的构建和验证,不直接用于识别数据不平衡。
  • B: Data Exploration (正确答案)
    • 数据探索是分析和了解数据分布的重要阶段,通过统计分析和可视化帮助识别数据中的不平衡问题。
  • C: Data Access
    • 数据访问涉及获取和加载数据,不用于分析数据特性。
  • D: Data Monitoring
    • 数据监控通常是在模型部署后监控模型表现时进行,不涉及初步数据分析。

机器学习生命周期六大步骤

机器学习模型的构建与管理分解为六步:

  1. 数据访问(Data Access)
  2. 数据探索与准备(Data Exploration & Preparation)
  3. 建模(Modeling/Model Building & Training)
  4. 模型验证(Model Validation)
  5. 模型部署(Model Deployment)
  6. 模型监控与刷新/退役(Model Monitoring, Refresh & Retirement)

所有机器学习项目都始于一个业务问题,这为整个流程提供了目标和方向。模型构建是一个不断迭代的过程,许多步骤会被多次修改直到满意。

数据访问(Data Access)
  • 生命周期所有活动都以数据为基础。
  • 在 OCI Data Science 中,建议将数据存储在 Notebook 会话中以便快速访问。
  • 数据可来源于企业内部多种渠道:数据湖、数据库(关系型或非关系型)、数据管道等,通常由数据工程师/ML工程师搭建数据流。
  • 还可利用非结构化数据(如日志、文本、图片、视频)及外部或开源数据,如政府开放数据、网络爬取、购买第三方数据、传感器采集等。
  • 组织内的数据目录工具有助于数据发现。
数据探索与准备(Data Exploration & Preparation)
  • 原始数据需要被探索、可视化和转换,多轮处理后才可用于建模。
  • 数据准备:包括清洗和处理——识别并修正损坏、不准确、不完整和重复数据。
  • 需判断数据是否具备标签,若无标签则需进行数据标注(如使用 OCI Data Labeling Cloud Service)。
  • 数据探索工具可用于统计分析、可视化特征分布,帮助理解数值范围、类别分布、缺失值、异常值等。
  • 还需进行特征工程(如分时段特征、类别特征独热编码等)。
建模(Modeling/Model Building & Training)
  • 需选择合适的机器学习算法和输入特征。
  • 模型类型分为有监督(如分类、回归)和无监督(如聚类)。
  • 通常会尝试多种算法、调整特征,选出效果最佳的模型。
  • 训练时,数据集被划分为训练集和测试集;前者用于训练,后者检验泛化能力。
  • 减少输入特征数量有助于降低计算成本、提升泛化能力和模型表现。
模型验证(Model Validation)
  • 训练后需评估模型适用性,选用业务相应的评估指标。
    • 分类问题常用精准率、召回率、混淆矩阵等。
    • 回归问题常用均方误差、均绝对误差、R²等。
    • 无监督问题关注聚类紧密度等指标。
  • 需灵活选取与业务目标对应的评估方式。
模型部署(Model Deployment)
  • 通过 pickle、ONNX、PMML 等格式保存模型,OCI Data Science 提供模型目录用于管理与保存。
  • 部署模型时,可能还需部署相关数据预处理流程。
  • 部署形式可分为批量推断(如定时运行批量任务)和实时推断(如金融交易的实时判断),部署需结合业务场景需求。
模型监控与刷新/退役(Model Monitoring, Refresh & Retirement)
  • 部署后的模型需要持续监控,以评估其在实际环境中的表现是否下降、有无模型偏移等。
  • 监控内容包括模型性能、数据分布漂移、业务指标退化等。
  • 运维监控需与工程团队协作,关注系统延迟、资源使用率、吞吐量、可靠性等,同时做好日志和指标采集以支持溯源和故障排查。
  • 模型可能需要定期或针对性地重新训练和部署。

Q21

Non-ML Lifecycle Activity Question Analysis

原题

  1. Which activity is NOT a part of the machine learning life cycle?

A. Modeling
B. Database Management
C. Data Access
D. Model Deployment

答案:B. Database Management

中文题目和选项翻译

  1. 哪个活动不属于机器学习生命周期的一部分?

A. 建模
B. 数据库管理
C. 数据访问
D. 模型部署

题解与选项分析

  • A: Modeling
    • 建模是机器学习生命周期中的核心阶段,涉及创建和训练模型。
  • B: Database Management (正确答案)
    • 数据库管理主要涉及数据存储和数据库系统的维护,与机器学习直接相关的生命周期阶段无关。
  • C: Data Access
    • 数据访问涉及获取和准备数据以供分析,是机器学习的一个重要环节。
  • D: Model Deployment
    • 模型部署是将训练好的模型应用于生产环境的步骤,是机器学习生命周期的后期阶段。

相关知识点总结

关联知识点Q20

  • 机器学习生命周期包含多个重要任务:

    • 数据访问(Data Access)、数据探索和准备(Data Exploration and Data Preparation)、建模(Modeling)、验证(Validation)、模型部署(Model Deployment)以及监控、刷新/退役(Monitoring/Refresh/Retirement)。
  • 数据库管理虽然与数据有关,但其主要处理数据的长期存储和完整性维护,不在机器学习生命周期的任务内。

Q22

What do you use the score.py file for?

A. Defining the scaling strategy
B. Executing the inference logic code
C. Configuring the deployment infrastructure
D. Defining the required Conda environments

Correct Answer: B


中文翻译题目与选项

你使用 score.py 文件是为了什么?

A. 定义扩展策略(scaling strategy)
B. 执行推理逻辑代码(inference logic code)
C. 配置部署基础设施(deployment infrastructure)
D. 定义所需的 Conda 环境


选项逐项解释

  1. A. Defining the scaling strategy

    • 错误。扩展策略通常定义在部署配置(如 YAML 文件或 deployment config)中,score.py 不负责扩展策略。
  2. B. Executing the inference logic code

    • 正确答案。 score.py 的核心功能就是加载模型并处理预测逻辑(处理输入数据并返回结果)。
  3. C. Configuring the deployment infrastructure

    • 错误。部署基础设施的配置(如计算资源、端口、环境变量等)通常在部署脚本或 YAML 文件中完成,非 score.py 职责。
  4. D. Defining the required Conda environments

    • 错误。Conda 环境的定义一般放在 environment.yml 或 AML 中的 Environment 类中管理,score.py 仅负责逻辑部分。

模型目录

  1. 模型工件

    • 包括模型、超参数、元数据、输入输出框架,以及用于加载模型和进行预测的脚本。
    • 模型工件可在数据科学家之间共享,用于跟踪、复制和部署。
  2. 目录条目组件

    • ZIP文件:保存的模型、Python脚本(score.py)、运行时环境配置(runtime YAML)。
    • 元数据:关于模型的来源,包括GIT信息及用于推送到目录的脚本或笔记本。

模型目录操作指导

  • 不可变性:模型工件不得更改,需创建新模型以应用任何变化。
  • 容量限制:保存时的最大容量为控制台上100兆字节,通过ADS和OCI SDK时可达20千兆字节。
  • 通过创建模型工件,将模型保存在模型目录中,实现集中存储及跟踪元数据。

重要文件说明

  1. score.py

    • 包含加载序列化模型对象并定义推断端点的逻辑。
  2. runtime YAML

    • 提供关于模型部署时使用的conda环境的信息。
  3. validate.py

    • 提供一系列测试定义,用于在保存到目录之前运行模型工件的测试。
  4. requirements.txt和Readme.md

    • 列出第三方依赖项及保存工件至目录的步骤指导。

Q23

As a data scientist, you require a pipeline to train ML models. When can a pipeline run be initiated?

A. During the pipeline run state
B. After it is created
C. After the Active state
D. Before the Active state


正确答案

C. After the Active state(在进入 Active 状态之后)

中文翻译与解析

作为一名数据科学家,你需要通过流水线(pipeline)来训练机器学习模型。流水线的运行(pipeline run)可以在什么时候启动?

  1. 在流水线运行状态期间
  2. 在流水线被创建之后
  3. 在进入 Active(活动)状态之后
  4. 在进入 Active(活动)状态之前

选项逐项解释

  1. 在流水线运行状态期间
    解析:流水线只有进入运行状态时才真正“开始运行”,但“发起运行”动作必须先于运行状态,因此此项表述错误。

  2. 在流水线被创建之后
    解析:流水线创建完成后还需要进入 Active 状态,中间还有激活等步骤,并非一创建好就能发起运行,不准确。

  3. 在进入 Active(活动)状态之后
    解析:正确答案。流水线生命周期包括 Create、Active、Run 和 Delete 四个阶段。必须在流水线处于 Active(活动)状态之后才能启动运行(Run)。这是 OCI Data Science Pipelines 的标准流程。

  4. 在进入 Active 状态之前
    解析:进入 Active 状态之前,仅处于 Create 等初步阶段,还无法发起运行操作,此项错误。


Pipeline 生命周期(Lifecycle)

  • Pipeline(流水线)生命周期分为四大阶段:Create(创建)、Active(活动/激活)、Run(运行)、Delete(删除/销毁)。
  • 只有当流水线为 Active 状态时,才允许启动 pipeline run。
状态 描述
Creating Pipeline 正在创建中
Active 创建完成,可运行
Pipeline Run 每次运行称为一次执行实例
Deleting 执行完后可选择删除
  • 一个 Pipeline 可执行多次,每次为一个独立 Pipeline Run
  • 每个 Run 会产生自己的日志、状态、输出

Q24

Which statement is true about machine learning models?

A. Static predictions become increasingly accurate over time.
B. A high-quality model will not need to be retrained as new information is received.
C. Data models are more static and generally require fewer updates than software code.
D. Model performance degrades over time due to changes in data.


正确答案

D. Model performance degrades over time due to changes in data.


中文翻译与解析

关于机器学习模型,下列哪一项说法是正确的?

  1. 静态预测会随着时间推移而变得更加准确。
  2. 一个高质量的模型在收到新数据后无需重新训练。
  3. 数据模型通常更加静态,相比软件代码需要更少的更新。
  4. 由于数据变化,模型性能会随着时间推移而下降。

选项逐项解释

  1. 静态预测会越来越准确
    解析:这是错误的,机器学习模型不会凭空自己变得更准,尤其是在数据分布变化时,反而可能更差。

  2. 高质量模型无需重新训练
    解析:这是不正确的。即使模型最初质量高,随着新数据到来和分布变化,依然需要不断重新训练以保持性能。

  3. 数据模型比代码更静态,通常更新更少
    解析:这也是错误的。实际上,数据模型通常需要因数据漂移而更新,比传统软件更需维护。

  4. 模型性能会因数据变化随时间下降
    解析:正确答案。 机器学习模型是依赖数据的,一旦数据分布发生变化(数据漂移、概念漂移),模型若不及时调整,就会出现性能下降(accuracy、precision等指标变差)的情况。


相关知识点总结

  • 机器学习模型本质上是对数据规律的学习与拟合,数据一旦发生改变,模型的有效性就会下降。
  • 这个现象被称为“模型漂移(model drift)”或“数据漂移(data drift)”,常见于实际业务场景。
  • 为保证实际效果,应定期对模型进行重新评估与训练(监控模型性能、触发自动重新训练)。
  • 高质量模型也难以抵抗长期数据分布变化或新增未见过的样本特征。

Q25

You want to change the autoscaling configuration for infrastructure and non-infrastructure fields for an existing model deployment in an Active state in Oracle Data Science. Which statement is true?

A. Infrastructure-related aspects can't be modified for a model deployment, regardless of state.
B. Non-infrastructure-related aspects can't be modified for an active model deployment.
C. You can modify the Autoscaling Scaling Policy fields and other configurations simultaneously regardless of its state.
D. You must disable the model deployment to update the Autoscaling Scaling Policy fields and other configurations.


正确答案

D. You must disable the model deployment to update the Autoscaling Scaling Policy fields and other configurations.
(你必须先禁用模型部署,才能同时更新自动扩缩容策略字段及其他配置。)


中文翻译与解析

你希望为 Oracle Data Science 中处于“Active”(活动)状态的现有模型部署更改基础设施相关和非基础设施相关字段的自动扩缩容配置。下列哪项说法是正确的?

  1. 不论处于什么状态,模型部署的基础设施相关内容都不能被修改。
  2. 处于活动状态的模型部署,非基础设施相关字段不能修改。
  3. 无论模型部署的状态如何,你都可以同时修改自动扩缩容策略字段及其他配置。
  4. 你必须先禁用(inactive)模型部署,才能同时更新自动扩缩容策略字段和其他配置。

选项逐项解释

  1. 基础设施相关内容永远不能改
    解析:不准确。基础设施(如计算规格、扩缩容策略等)可以修改,前提是状态适配,不是“永远不可改”。

  2. 非基础设施相关内容不能在活动状态修改
    解析:部分准确,实际上是“基础设施相关内容”在活动状态下不支持与其他字段同时修改,非基础设置如名称、描述等可以在 active 状态下改。

  3. 任何状态都能同时改扩缩容策略与其他配置
    解析:错误。在活动(Active)状态下,自动扩缩容策略字段(Scaling Policy)必须单独独立修改,不能与其他配置同时进行。只有当模型部署被禁用(Inactive)后,才能一次性批量更改。

  4. 必须禁用后才能同时更新扩缩容策略字段及其他配置
    解析:正确答案。 只有当模型部署为 inactive(非活动)状态时,才能对扩缩容策略字段和其他配置(如基础设施规格等)同时进行修改。否则 active 状态下,这些配置更新需单独操作。


相关知识点总结

  • 模型部署处于 Active 状态时,只能单独修改扩缩容策略字段;基础设施相关字段的批量修改需在 Inactive(禁用)状态下进行。
  • 非基础设施字段(如名称/描述/标签)在 Active 状态下可以随时调整,对基础设施和扩缩容字段有严格管控流程以保证服务稳定。
  • 这一设计旨在防止线上服务突然性资源变化,提高迭代安全性。

Q26

Which statement is true about logs for Oracle Cloud Infrastructure Jobs?

A. Integrating Data Science Jobs resources with Logging is mandatory.
B. Logs are automatically deleted when the job and job run are deleted.
C. All stdout and stderr are automatically stored when automatic log creation is enabled.
D. Each job run sends outputs to a single log for that job.


正确答案

C. All stdout and stderr are automatically stored when automatic log creation is enabled.


中文翻译与解析

关于 Oracle Cloud Infrastructure(OCI)作业(Jobs)的日志,下列哪一项说法是正确的?

  1. 将 Data Science Jobs 资源与日志服务集成是强制性的。
  2. 当作业及作业运行被删除时,日志会被自动删除。
  3. 当启用自动日志创建时,所有的标准输出(stdout)和标准错误(stderr)都会被自动记录保存。
  4. 每次作业运行的输出都会发送到该作业的单一日志文件。

选项逐项解释

  1. 集成日志服务是强制的
    解析:错误。将 Data Science Jobs 和日志服务集成不是强制要求,而是可选项(推荐但非必需)。

  2. 作业和运行被删除时日志也自动删除
    解析:错误。日志不会因作业/运行被删自动清除,日志的生命周期独立于作业。

  3. 启用自动日志创建时,stdout和stderr会被自动存储
    解析:正确答案。 开启自动日志创建后,作业的标准输出(stdout)和标准错误(stderr)会被自动捕获到日志服务,便于追踪和排查。

  4. 每个作业运行输出到同一日志文件
    解析:错误。通常每次作业运行会有独立的日志,便于分别追踪每次执行的详细情况。


日志(Logging):记录任务细节,便于排错与审计

✅ 1. 两种日志类型
类型 说明
Service Logs(系统日志) 自动采集任务输出(stdout、stderr),由 OCI 日志服务管理
Custom Logs(自定义日志) 用户自定义内容与存储位置,可根据具体业务需求格式化内容
✅ 2. 使用建议
  • 开启日志服务可提升:
    • 调试效率:捕获错误、查看输出过程
    • 监控质量:判断运行行为是否符合预期
  • 可以为每个 Job Run 创建独立日志,也可共用一个日志组(Log Group)
  • 开启“自动日志创建”后,每次任务运行自动写入指定日志组,无需手动配置
  • 注意:日志不会因 Job 被删除而自动清除,需手动管理日志生命周期

Q27

In the OCI Console, as part of Monitoring, of what is triggering a Pager Duty notification an example?

A. Action
B. Event
C. Rule
D. Function


正确答案

A. Action

中文翻译与解析

在 OCI 控制台的监控(Monitoring)功能中,下列哪个选项属于“触发一个 Pager Duty 通知”的示例?

  1. 操作(Action)
  2. 事件(Event)
  3. 规则(Rule)
  4. 函数(Function)

选项逐项解释

  1. 操作(Action)
    解析:正确答案。 “Action” 指的是用户定义的对事件的响应动作,比如发送通知、调用第三方系统等。触发 Pager Duty 通知就是直接对监控/事件的响应动作实例。

  2. 事件(Event)
    解析:Event 是发生的某个情况,比如某项指标超阈值。它本身只是某种状态变化,并不是“通知”的本质行为。

  3. 规则(Rule)
    解析:Rule 是用于定义监控条件(如:什么情况触发 Alarm),本身不是具体执行响应的动作。

  4. 函数(Function)
    解析:Function 主要指可编程执行的代码块,不直接代表“触发通知”这种动作。


相关知识点总结

  • 在 OCI 监控服务中,“Action”表示事件触发后的实际响应,比如发短信、通知、触发第三方告警工具等。
  • “Event”(事件)是触发点,“Rule”(规则)是触发依据,“Action”(操作)是实际执行的后续动作。
  • 典型流程:事件发生 —> 触发规则 —> 执行Action(操作),如 Pager Duty 通知。

Pager Duty 通知是什么?

Pager Duty 通知,本质上是指通过 PagerDuty 这款企业级运维告警管理平台所发送的通知。PagerDuty 是一个知名的事件响应与告警管理平台,广泛用于 IT 运维(SRE、DevOps)、系统监控和应急响应场景。

主要功能
  • 集中告警管理:整合来自监控系统、云服务(如 OCI)、应用日志等多渠道的告警,统一分发。
  • 自动通知与升级:当监控系统发现异常(如服务不可达、指标超标)时,PagerDuty 会按照预设的值班表、联系人和通知策略,通过邮箱、短信、电话、App 推送等方式通知相应运维或技术人员。
  • 提升响应效率:允许团队自定义通知策略,如没人响应自动升级到更高等级,确保紧急告警必达。
在 OCI 监控中的作用
  • 当云服务监控(Oracle Cloud Infrastructure Monitoring)检测到异常时,可以配置触发“Action”(动作),如向 PagerDuty 通道推送告警。
  • PagerDuty 接收该告警后,迅速通知对应责任人,有效缩短故障响应和修复时间。
举例
  • 某云服务 CPU 利用率异常升高时,OCI 触发一个 Action,将消息推送给 PagerDuty。
  • PagerDuty 根据设定,给一线运维工程师手机 App 发送推送、发送短信乃至打来紧急电话。
  • 如果一线未响应,PagerDuty 自动通知高级工程师或管理层,确保问题不会被遗漏。

结论

Pager Duty 通知,即为通过 PagerDuty 平台自动分发的运维/系统异常告警通知,用于提醒相关人员及时处理系统异常,大幅提升 IT 服务的可靠性与响应速度。


Q28

Why would you use a mini batch when processing a job in Data Science Jobs?

A. You want several distributed models to run simultaneously.
B. You want to process data frequently.
C. You do not need to process data quickly.
D. There is a small amount of total data to process.


正确答案

B. You want to process data frequently.


中文翻译与解析

在数据科学作业(Data Science Jobs)中处理任务时,为什么要使用 mini batch(小批量)?

  1. 你希望多台分布式模型同时运行。
  2. 你希望可以更频繁地处理数据。
  3. 你对数据处理速度没有要求。
  4. 需要处理的数据总量很少。

选项逐项解释

  1. 多分布式模型并发
    解析:mini batch 的设计主要不是为同时运行多个分布式模型。它主要用于单个模型批量学习和优化,不是模型并行。

  2. 希望频繁处理数据
    解析:正确答案。
    mini batch(小批量)最大的优势就是:相比于全部数据一次处理(batch),可以将数据分批,以更短的周期、更频繁地进行训练或推断。这有助于提升频繁处理数据的能力,适应流式/增量更新、及时反馈与优化。

  3. 不需要快速度处理
    解析:如果对处理速度没要求,可以直接用大批量或随机,不需要专门用 mini batch。

  4. 数据总量很少
    解析:数据量很少完全可以用全量 batch,mini batch 通常用于数据量大、不便一次性读入处理的场景。


三种批量处理方式对比

类型 说明
常规批处理(Batch) 标准任务,一次处理一批数据,适合每日定时运行
小批量(Mini-batch) 更高频次、处理更小数据块,例如银行每几分钟检测一次欺诈交易
分布式批处理(Distributed) 大数据量被拆分,多个 Job 同时运行,无相互依赖,极大提升处理效率(也叫“尴尬并行” Embarrassingly Parallel)

Q29

Which statement is true about Oracle Cloud Infrastructure Data Science Jobs?

A. You must create and manage your own Jobs infrastructure.
B. You must use a single Shell/Bash or Python artifact to run a job.
C. Jobs provisions the infrastructure to run a process on demand.
D. Jobs comes with a set of standard tasks that cannot be customized.


正确答案

C. Jobs provisions the infrastructure to run a process on demand.


中文翻译与解析

下列哪项关于 Oracle Cloud Infrastructure(OCI)Data Science Jobs 的说法是正确的?

  1. 你必须自行创建和管理作业基础设施。
  2. 你必须使用单一的 Shell/Bash 或 Python 工件来运行作业。
  3. Jobs 会按需自动配置基础设施来运行你的流程。
  4. Jobs 只带有一组不可定制的标准任务。

选项逐项解释

  1. 必须自己创建和管理作业基础设施
    解析:错误。OCI Data Science Jobs 平台会自动为你管理和配置底层基础设施,用户不用手动搭建或维护计算资源。

  2. 只能用单个 Shell/Bash 或 Python 工件运行作业
    解析:错误。虽然这些类型被支持,但你可以灵活自定义运行环境及工件,不限于单一脚本或类型。

  3. 按需自动配置基础设施
    解析:正确答案。
    OCI Data Science Jobs 支持“serverless”体验,即你只需定义作业内容,启动时平台会自动分配、启动/停止/回收所需资源,无需用户自己关注底层机器配置。

  4. 只带有一组不可定制的标准任务
    解析:错误。用户可高度自定义作业任务,平台并非只限于固定预置流程或内容。


Data Science Jobs

Oracle Cloud Infrastructure (OCI) 中的 Data Science Jobs 服务,这是在 Oracle Cloud 上实现 MLOps(机器学习运维) 的核心组件之一。该服务支持批量处理、模型训练、自动化推理等关键流程。通过 按需自动部署与销毁资源 的机制,Jobs 服务既节省成本,又简化了复杂的工作流。

Jobs 支持多种运行方式,可结合 Python、Bash 脚本或打包的 ZIP/TAR 项目运行。支持多类型批处理任务,如普通批处理(Batch)、小批量(Mini-batch)与分布式批处理(Distributed)。也可结合 CI/CD 流水线 实现自动化调度。


一、Jobs 服务的作用

  • 是 Oracle 数据科学服务的一部分
  • 在需要时自动创建计算资源(按需调用,按时计费)
  • 可执行的任务包括但不限于:
    • 数据准备
    • 模型训练
    • 批量推理(Batch Inference)
    • 任意用户自定义流程
  • 可整合为 MLOps 生命周期中的一个或多个步骤

二、Jobs 服务的优势

  1. 完全托管:无需维护服务器或第三方系统
  2. 自动部署资源:只在任务运行时创建计算资源
  3. 与 Oracle Cloud 深度集成
    • 可访问数据库、对象存储、网络、安全服务等
    • 使用 Oracle 的网络与权限配置,如 VCN(虚拟云网络)
  4. 灵活配置资源与计费优化
    • 自动释放资源
    • 只为实际使用的时间付费

Q30

Which step is unique to MLOps, as opposed to DevOps?

A. Continuous Delivery
B. Continuous Training
C. Continuous Integration
D. Continuous Deployment


正确答案

B. Continuous Training


中文翻译与解析

与 DevOps 相比,下列哪个步骤是 MLOps 独有的?

  1. 持续交付(Continuous Delivery)
  2. 持续训练(Continuous Training)
  3. 持续集成(Continuous Integration)
  4. 持续部署(Continuous Deployment)

选项逐项解释

  1. Continuous Delivery(持续交付)
    解析:持续交付是 DevOps 和 MLOps 都共有的概念,不是 MLOps 独有。

  2. Continuous Training(持续训练)
    解析:正确答案。
    持续训练是 MLOps 特有的步骤,涉及模型定期/自动化地重新训练,以应对数据漂移和模型失效。这一环节在传统 DevOps 流水线中并不存在,因为软件交付无需“训练”这种面向数据的工序。

  3. Continuous Integration(持续集成)
    解析:也是 DevOps 和 MLOps 共有的基本实践。

  4. Continuous Deployment(持续部署)
    解析:这同样是 DevOps/MLOps 都支持的标准步骤,并非 MLOps 独有。


MLOps与 DevOps 的关系与区别

  • 两者都强调:

    • 构建(Build)
    • 测试(Test)
    • 持续部署(Continuous Deployment)
    • 监控(Monitoring)
  • MLOps 额外增加的特点:

    • Continuous Training(持续训练):因为数据是不断变化的,模型必须定期重新训练。
    • 模型验证(Model Validation):每次训练后都要确保模型质量达标,才能再次部署。

Q31

Which OCI service provides a scalable environment for developers and data scientists to run Apache Spark applications at scale?

A. Data Science
B. Anomaly Detection
C. Data Labeling
D. Data Flow


正确答案

D. Data Flow


中文翻译与解析

下列哪项 OCI 服务为开发者和数据科学家提供可扩展的大规模 Apache Spark 应用运行环境?

  1. 数据科学(Data Science)
  2. 异常检测(Anomaly Detection)
  3. 数据标注(Data Labeling)
  4. 数据流(Data Flow)

选项逐项解释

  1. Data Science(数据科学)
    解析:主要用于构建和管理机器学习模型,虽支持 notebook 和训练任务,但不是专门为大规模 Spark 应用而设计的平台。

  2. Anomaly Detection(异常检测)
    解析:提供异常检测 API 和模型服务,并不支持用户自定义大规模 Spark 作业。

  3. Data Labeling(数据标注)
    解析:用于对原始数据进行标注,为后续训练模型提供标签数据,不是 Spark 托管平台。

  4. Data Flow(数据流)
    解析:正确答案。
    Data Flow 是 Oracle 云的 Serverless Spark 托管服务,专为大规模和弹性运行 Spark 作业设计,支持多种开发语言,自动资源管理,无需自行运维集群,是开发者和数据科学家运行 Spark ETL、特征工程、机器学习等批处理作业的首选平台。


Oracle Cloud Infrastructure Data Flow 简介

  • Data Flow 是为开发者和数据科学家量身打造的可扩展 Spark 托管平台
  • 支持运行 Apache Spark 应用和大规模批量作业,适合处理大数据、机器学习、特征工程、数据清洗等任务
  • Spark 支持多语言(PySpark, Scala, Java, SQL),并可利用 MLlib 库实现分布式机器学习模型训练
  • Data Flow 全托管、Serverless,无需自建或管理 Spark 集群,运行按需调度,完全自动化

Q32

英文原文

You are a researcher who requires access to large data sets. Which OCI service would you use?

A. ADW
B. Oracle Open Data
C. OCI Data Science
D. Oracle Databases


正确答案

B. Oracle Open Data


中文翻译与解析

你是一名研究人员,需要访问大规模数据集。你会选择下列哪个 OCI 服务?

  1. 自动化数据仓库(ADW, Autonomous Data Warehouse)
  2. Oracle Open Data
  3. OCI Data Science
  4. Oracle 数据库(Oracle Databases)

选项逐项解释

  1. ADW(自动化数据仓库)
    解析:主要是企业为结构化数据分析、存储与管理而设计的托管数据库服务,不是面向公开大规模数据集检索与下载的开放平台。

  2. Oracle Open Data
    解析:正确答案。
    Oracle Open Data 提供权威、免费的开放数据集,面向科研、数据分析、建模等应用,支持直接在线浏览、搜索、下载和复用,是大数据科研人员的优选资源库。

  3. OCI Data Science
    解析:是机器学习/深度学习全托管平台,虽然可以用来分析与建模,但本身并不直接提供大规模的开放数据集。

  4. Oracle Databases
    解析:传统数据库服务,主要用于企业自有数据的存储和管理,不是开放数据资源的集合。


相关知识点总结

  • Oracle Open Data 是 Oracle 公有云上专用于免费开放数据集管理和访问的服务,适合科研、开发、数据建模等场景。
  • 其他选项更侧重于数据存储、分析和建模,不直接提供大量权威公开数据集。
  • 使用 Oracle Open Data 可节省数据收集和清洗成本,加速研究和创新。

Q33

Which option indicates the three types of data used for Data Labeling?

A. Graphic, text, document
B. Image, text, document
C. Text, audio, video
D. Image, audio, document


正确答案

B. Image, text, document

中文翻译与解析

下列哪一项显示了“数据标注”所用的三种数据类型?

  1. 图形、文本、文档
  2. 图像、文本、文档
  3. 文本、音频、视频
  4. 图像、音频、文档

选项逐项解释

  1. Graphic, text, document(图形、文本、文档)
    解析:Graphic 通常指矢量图/设计元素,和数据标注常见类别不对应。

  2. Image, text, document(图像、文本、文档)
    解析:正确答案。
    数据标注服务最常用的三类数据就是:图像(如图片识别)、文本(如情感分类)、文档(如合同/票据等结构化识别)。

  3. Text, audio, video(文本、音频、视频)
    解析:虽然是常见数据类型,但 OCI 数据标注服务目前对音频和视频的支持不普遍,核心仍是图像、文本、文档。

  4. Image, audio, document(图像、音频、文档)
    解析:同理,音频不是 OCI 数据标注的主流对象。


相关知识点总结

  • 数据标注领域,OCI 主要支持:图像(Image)、文本(Text)、文档(Document)三类数据的标注。

数据标注(Data Labeling)


1. 什么是数据标注?
  • 数据标注是指识别文档、文本、图像等数据记录的某些属性(标签),并将这些属性以注释(标签)的形式附加到数据上的过程。
  • 例子:新闻的主题、推文的情感、图片的描述、音频的关键词、视频的类型等都可以作为数据标签。

2. 数据标注的作用
  • 许多机器学习技术在训练前都需要有标签的数据。
  • 因此,数据标注是人工智能(AI)和机器学习(ML)项目的核心环节。

3. 数据标注平台的主要功能
  • 可以创建和浏览数据集,查看数据记录(如文档、文本、图片),并为其打上标签,辅助AI/ML模型开发。
  • 支持以行分隔的JSON格式(JSONL)导出数据集,便于模型训练使用。
  • 数据集在Oracle云各AI服务间可互操作。例如,OCI Language服务需要利用这些带标签的数据来训练专用模型。
  • 标注体验简易,配置步骤很少,首选项面向OCI AI服务自动集成。

4. 支持的文件类型
  • 支持的文件与内容类型涵盖文档、文本和图片,具体请参考官方“Supported File Formats”列表。

5. 数据集的资源组成
  • 数据集(Dataset)是数据标注的核心资源。
    • 包含:数据记录(data records)和与其关联的标签(labels)。
    • 数据记录可以是一个文档、一张图片、一段文本。
    • 标签是字符串文本,打在数据记录上后成为注释(annotations)。
    • 注释还可携带其他数据(比如对象检测的 bounding box 坐标)。
    • 数据记录可以没有注释,数据集也可以导出为JSON格式,供机器学习模型开发使用。

小结:
数据标注是AI/ML项目的重要一环,通过便捷的标签工具可以高效准备训练数据,为后续建模提供坚实基础。OCI Data Labeling服务可用来管理、标注、导出数据集,并支持一键集成至Oracle云上的其它AI服务,实现机器学习全流程无缝对接。


Q34

What is the name of the machine learning library used in Apache Spark?

A. GraphX
B. Structured Streaming
C. HadoopML
D. MLlib


正确答案

D. MLlib


中文翻译与解析

在 Apache Spark 中,使用的机器学习库叫什么名字?

  1. GraphX
  2. Structured Streaming(结构化流处理)
  3. HadoopML
  4. MLlib

选项逐项解释

  1. GraphX
    解析:GraphX 是 Spark 的图计算库,用于图建模和分析,不是专门的机器学习库。

  2. Structured Streaming
    解析:用于 Spark 的流式数据处理,与机器学习无关。

  3. HadoopML
    解析:没有叫 HadoopML 的官方库,Hadoop 本身主要用于分布式存储与处理。

  4. MLlib
    解析:正确答案。
    MLlib 是 Spark 的官方机器学习库,涵盖了分类、回归、聚类、降维等常用 ML 算法,适用于大数据规模下的 ML 任务。


相关知识点总结

  • MLlib 是 Spark 的内置、优化、分布式机器学习库,支持多种常用算法与数据管道。
  • GraphX 支持图结构计算,Structured Streaming 用于流处理,二者并非机器学习主力库。
  • MLlib 可以和数据预处理、特征工程、模型评估等多环节集成,常与 Spark SQL、DataFrame 等协作。

Apache Spark 介绍


1. 什么是 Apache Spark?

Apache Spark 是一个开源的、强大的分布式计算框架,专为大规模数据处理和分析而设计。Spark 支持多种编程语言(如 Python、Scala、Java、R)且拥有丰富的生态系统,广泛应用于数据挖掘、机器学习、图计算和流式处理等场景。


2. 核心特性

  • 高速处理:Spark 利用内存计算,通常比 Hadoop MapReduce 快数十倍,适合迭代式任务和交互式数据分析。
  • 易用性:支持多种高级 API(DataFrame、SQL、R、Streaming、MLlib 等),便于数据科学家和工程师开发与调试。
  • 统一平台:在同一引擎下支持批处理(Batch)、流处理(Streaming)、机器学习(MLlib)、图计算(GraphX)。
  • 可扩展性:可在上百乃至上千节点的集群上高效运行,轻松扩展到 PB 级数据。
  • 容错性:借助 RDD(弹性分布式数据集)机制,能够实现数据丢失时自动重算,保证任务可靠性。

3. 主要组件

  • Spark Core:提供基本的任务调度、内存管理、容错和分布式计算功能。
  • Spark SQL:支持 SQL 查询和结构化数据分析,方便与主流数据源集成。
  • Spark Streaming:流式数据处理模块,可对实时数据进行高吞吐、低延迟计算。
  • MLlib:机器学习库,内含丰富的算法和工具,支持大规模分布式训练和预测。
  • GraphX:图计算库,支持图数据结构和算法的分布式处理。
  • Structured Streaming:结构化的流数据处理引擎,提供更易用的批流一体编程范式。

4. 应用场景

  • 数据仓库分析与商业智能
  • 实时大数据处理(如网络日志、金融风控、物联网数据流等)
  • 大规模机器学习模型训练和预测
  • 图数据分析,如社交网络关系挖掘
  • 特征工程、数据清洗与转换等数据预处理任务

5. 生态与部署方式

  • 与 Hadoop、HDFS、Hive、HBase 等大数据工具无缝集成
  • 可运行于独立集群、Hadoop Yarn、Kubernetes、Mesos 等多种资源调度平台
  • 支持云服务(如 Oracle Data Flow、Amazon EMR、Databricks 等)实现 Serverless 或托管 Spark 运行

6. 总结

Apache Spark 是现代大数据和 AI 项目不可或缺的基础平台之一,以高性能、灵活易用和生态丰富著称。借助 Spark,开发者和数据科学家能够高效应对海量数据处理与机器学习等复杂挑战。


Q35

Which Oracle Cloud Infrastructure (OCI) Data Science policy is invalid?

A. Allow group DataScienceGroup to use virtual-network-family in compartment DataScience
B. Allow group DataScienceGroup to use data-science-model-sessions in compartment DataScience
C. Allow dynamic-group DataScienceDynamicGroup to manage data-science-projects in compartment DataScience
D. Allow dynamic-group DataScienceDynamicGroup to manage data-science-family in compartment DataScience


正确答案

B. Allow group DataScienceGroup to use data-science-model-sessions in compartment DataScience


中文翻译与解析

以下哪个 Oracle Cloud Infrastructure (OCI) Data Science 策略是无效的?

A. 允许组 DataScienceGroup 在 DataScience compartment 中使用 virtual-network-family
B. 允许组 DataScienceGroup 在 DataScience compartment 中使用 data-science-model-sessions
C. 允许动态组 DataScienceDynamicGroup 在 DataScience compartment 中管理 data-science-projects
D. 允许动态组 DataScienceDynamicGroup 在 DataScience compartment 中管理 data-science-family


选项逐项解释

  1. A. 允许用户组使用虚拟网络资源(virtual-network-family)
    解析:此策略语法和资源类型均正确,可以授权组管理 VCN 相关网络资源。

  2. B. 允许用户组使用 data-science-model-sessions
    解析:数据科学模型会话(data-science-model-sessions)不是有效的 OCI 资源类型,该写法不符合 OCI 策略规范。
    正确的资源类型应该是:data-science-family(用于对所有数据科学资源授权),或更细粒度的如 data-science-notebook-session-family。本选项中的 data-science-model-sessions 并非官方定义资源类型,属于无效写法。(正确答案)

  3. C. 允许动态组管理 data-science-projects
    解析:这是允许云资源(如实例身份)自动管理数据科学项目,属于有效格式。

  4. D. 允许动态组管理 data-science-family
    解析:data-science-family 是 Data Science 相关 OCI 策略官方推荐的资源类型,该策略语法有效。


相关知识点总结

  • OCI Policy 的资源类型必须为官方文档支持的类型,如 data-science-familydata-science-projects 等。
  • 使用不存在或拼写错误的资源类型会导致策略无效。
  • 用户组(group)与动态组(dynamic-group)授权对象用法不同,应用场景分别对应人工账号和云服务实例等自动身份。
  • 常用管理权限包括 use(使用)、manage(完全管理)。

Q36

Which is NOT a valid OCI Data Science notebook session approach?

A. Ensure you don’t execute long-running Python processes in a notebook cell. Run the process directly in the terminal and use Python logging to get updates on the progress of your job.

B. Avoid having multiple users in the same notebook session due to the possibility of resource contention and write conflicts.

C. While connecting to data in OCI Object Storage from your notebook session, the best practice is to make a local copy on the device and then upload it to your notebook session block volume.

D. Authenticate using your notebook session's resource principal to access other OCI resources. Resource principals provide a more secure way to authenticate to resources compared to the OCI configuration and API key approach.


正确答案

C. While connecting to data in OCI Object Storage from your notebook session, the best practice is to make a local copy on the device and then upload it to your notebook session block volume.


中文翻译与解析

以下哪一项 不是 有效的 OCI Data Science notebook session(笔记本会话)实践方法?

A. 确保不要在 notebook 单元格中执行长时间运行的 Python 进程。应直接在终端运行该进程,并用 Python logging 获取作业进度。
B. 避免多用户共享同一个 notebook session,以防资源抢占和写入冲突。
C. 在 notebook 会话中连接 OCI 对象存储数据时,最佳做法是先在本地设备上创建副本,再上传到 notebook session block volume。
D. 使用 notebook session 的资源主体(resource principal)认证访问其他 OCI 资源,更安全于 API 密钥方式。


选项逐项解释

  1. A.
    正确性:合理。长时任务建议在终端独立运行,日志单独管理防止卡住 notebook。

  2. B.
    正确性:合理。多人共用笔记本容易出现资源冲突,应避免。

  3. C.
    正确性:这是伪最佳实践,实际上不是 OCI 推荐方式。
    从对象存储读取数据建议直接通过 notebook 实例中的 SDK/API 加载,无需先在本地设备中转,甚至会增加繁琐步骤和潜在数据一致性风险,降低自动化和 reproducibility。

  4. D.
    正确性:合理。资源主体认证是 OCI 推荐的云服务之间自动安全访问方案。


相关知识点总结

  • 推荐在 notebook 会话中直接用 OCI SDK/API 访问对象存储,无需“离线拷贝再导入”。
  • 长时间任务最好不用 cell 执行,减少笔记本阻塞风险。
  • 多用户不建议共用同一 notebook session。
  • 资源主体(resource principal)是云端自动安全推荐机制。

Q37

You are working as a data scientist for a healthcare company. You have analyzed a series of neurophysiological data on OCI Data Science and have developed a convolutional neural network (CNN) classification model. It predicts the source of seizures in drug-resistant epileptic patients.

You created a model artifact with all the necessary files. When you deployed the model, it failed to run because you did not point to the correct conda environment in the model artifact.

Where would you provide instructions to use the correct conda environment?

A. score.py
B. runtime.yaml
C. requirements.txt
D. model_artifact_validate.py


正确答案

B. runtime.yaml


中文翻译与题意解释

你是一名医疗行业的数据科学家,在 OCI Data Science 上分析神经生理数据并训练了 CNN 分类模型。你已将模型相关文件打包封装为 model artifact。在部署模型时运行失败,发现是因为 model artifact 中未指向正确的 Conda 环境。

请问:你应在哪里指定使用正确的 Conda 环境的指令?


选项逐项解释

  1. A. score.py
    用于模型推理和分数计算,是主程序,不用于环境/依赖描述。

  2. B. runtime.yaml
    正确答案。
    runtime.yaml 是专门用来在 OCI Data Science 部署时指定 Conda 环境(如名称、版本)的配置文件。只有在这里正确填写 OCI 已注册的 Conda 环境名,模型部署才会加载对应环境运行。

  3. C. requirements.txt
    用于列出 pip 安装的 Python 依赖包,不用于指定完整的 Conda 环境。

  4. D. model_artifact_validate.py
    (通常是用户自定义验证脚本)并非部署过程中指定运行环境的位置。


相关知识点总结

  • runtime.yaml:OCI Data Science 平台模型部署时唯一支持指定 Conda 环境的配置入口。
  • requirements.txt:补充安装额外 pip 包,不等同于 Conda 环境整体指定。
  • 错误配置 Conda 环境会导致模型部署失败、依赖加载异常。

Q38

You have an image classification model in the model catalog which is deployed as an HTTP endpoint using model deployments. Your tenancy administrator is seeing increased demands and has asked you to increase the load balancing bandwidth from the default of 10 Mbps.
You are provided with the following information:

  • Payload size in KB: 1024
  • Estimated requests per second: 120 requests/second
  • Buffer percentage: 20%

What is the optimal load balancing bandwidth to redeploy your model?

A. 452 Mbps
B. 52 Mbps
C. 7052 Mbps
D. 1152 Mbps

正确答案: D

中文题目解析

你有一个图像分类模型,通过模型部署作为 HTTP 端点部署在模型目录中。你的租户管理员注意到请求量增加,要求你将负载均衡带宽(load balancing bandwidth)从默认的 10 Mbps 提高。
已知参数如下:

  • 每个请求的有效载荷(Payload)大小: 1024 KB(即 1 MB)
  • 预计每秒请求数(Requests per second): 120
  • 带宽缓冲百分比(Buffer percentage): 20%

问题:根据上述参数,部署模型时最优的负载均衡带宽应该是多少?


选项解释

  1. A. 452 Mbps
  2. B. 52 Mbps
  3. C. 7052 Mbps
  4. D. 1152 Mbps

计算过程与思路

你可以使用以下公式估算你需要的负载均衡带宽,并多加 20% 作为缓冲,以防估算错误和突发流量。
(Payload size in KB) * (Estimated requests per second) * 8 / 1024
最后带宽再乘以 1.2 作为缓冲:
例题数值:(1024 * 120 * 8 / 1024)* 1.2 = 1152 Mbps

实际公式和数据代入:

  • (Payload size in KB) = 1024
  • Estimated requests per second = 120
  • 8(转换为bit)
  • / 1024(KB转MB)
  • 乘以1.2(缓冲20%)


(1024 * 120 * 8 / 1024) * 1.2 = (120 * 8) * 1.2 = 960 * 1.2 = 1152 Mbps


各选项分析

  1. A. 452 Mbps
    明显低于实际所需带宽,不足以支持峰值负载。
  2. B. 52 Mbps
    极度低估,仅能处理极小的流量。
  3. C. 7052 Mbps
    远大于实际需求,配置会浪费资源。
  4. D. 1152 Mbps
    接近于实际按照估算后带缓冲的需求值,是最优选择。(正确答案)

相关知识点总结

  • 带宽需求常用公式:
    带宽(Mbps) = (单次请求大小(字节) * 8 * 每秒请求数) / 1,000,000 * (1 + 缓冲百分比)
  • 在进行面向大流量系统部署时,需要考虑负载高峰和带宽缓冲,实际配置时通常选择高于预估的下一档带宽。
  • 单位换算注意:1KB = 1024 Bytes,1 MB = 1024 KB = 1,048,576 Bytes;带宽换算 1 Mbps = 1,000,000 bps。
  • 带缓冲配置,可帮助系统抵御突发流量或网络波动,提高可用性和稳定性。

Q39

You want to create an anomaly detection model using the OCI Anomaly Detection service that avoids as many false alarms as possible. False Alarm Probability (FAP) indicates model performance.

How would you set the value of False Alarm Probability?

A. High
B. Low
C. Zero
D. Use a function


正确答案

B. Low

中文题目解析

你希望使用 OCI 异常检测服务(OCI Anomaly Detection service)创建一个异常检测模型,并且希望尽可能避免误报(false alarms)
误报概率(False Alarm Probability, FAP)表示模型的性能。

问题:你应该如何设置误报概率(FAP)的数值?


选项解释

  1. A. High(高)
    设置高误报概率,会让模型误报警报非常多,与题目要求相反。

  2. B. Low(低)
    设置低误报概率,可以尽可能减少误报,符合题目目标。(正确答案)

  3. C. Zero(零)
    虽然设置为零理论上不会有误报,但在实际场景中完全无误报几乎做不到,可能会影响到模型检测能力,不推荐或不可实现。

  4. D. Use a function(使用函数)
    此说法不具体,不能准确控制误报概率,且不符合通常操作习惯。


相关知识点总结

  • False Alarm Probability (FAP): 表示模型把正常样本误判为“异常”的概率,值越低,误报越少。
  • 异常检测(Anomaly Detection):主要目标之一就是将误报降到最低,减少噪音和人为干预成本,尤其在工业、金融等领域尤为重要。
  • 实际设置: FAP 值通常会设为业务可接受的最低水平,不建议为 0,因为这样可能导致漏报率过高或模型失效。
  • 平衡点:过低的 FAP 可能导致更多漏报(即异常事件没有被发现),需结合业务实际取舍。

Q40

A team wants to use CPU utilization as a metric to trigger autoscaling.

Which type of autoscaling policy should they configure?

A Manual scaling
B Custom scaling metric
C Predefined metric
D Load balancer scaling


正确答案

C Predefined metric(预定义指标)


中文题目解析

某团队希望用 CPU 利用率这个指标来触发自动扩展(autoscaling)。

问题:他们应该选择哪种类型的自动扩展策略?

A. Manual scaling(手动扩展)

B. Custom scaling metric(自定义扩展指标)

C. Predefined metric(预定义指标)

D. Load balancer scaling(负载均衡扩展)


选项解析

A. Manual scaling(手动扩展)
手动扩展不能自动根据 CPU 利用率调整实例数量,不符合需求。

B. Custom scaling metric(自定义扩展指标)
用于自定义(非预置)的特殊业务指标。CPU 利用率属于系统预定义的指标。

C. Predefined metric(预定义指标)
预定义扩展策略支持使用 CPU 利用率或内存利用率等标准系统监控指标来自动扩展资源。
(正确答案)

D. Load balancer scaling(负载均衡扩展)
是根据负载均衡器相关指标进行扩展,和直接用 CPU 利用率无关。


相关知识点总结

  • 自动扩展(Autoscaling): 指根据某些监控指标自动增加或减少计算资源的机制。
  • 预定义指标(Predefined metrics): 系统内置的标准监控指标(如 CPU、内存利用率),最常作为自动扩展触发条件。
  • 自定义扩展指标(Custom metrics): 允许结合业务特定指标,但不适用于标准资源监控场景。
  • 实际应用: 若单纯依赖 CPU、内存等标准系统指标,应选择“预定义指标”策略。

Q41

You are a data scientist using Oracle AutoML to produce a model and you are evaluating the score metric for the model.

Which two prevailing metrics would you use for evaluating the multiclass classification model?

A Recall
B R-squared
C Explained variance score
D F1 score
E Mean squared error


正确答案 A ,D


中文题目解析

你是一名数据科学家,使用 Oracle AutoML 生成一个模型,并准备评估模型的评分指标。

问:在多分类(multiclass classification)模型评估中,常见的两个指标是哪两个?

A Recall(召回率)
B R-squared(决定系数)
C Explained variance score(可解释方差分数)
D F1 score(F1分数)
E Mean squared error(均方误差)


选项解析

A. Recall(召回率)
衡量模型找回所有正例能力,在多分类中常用。(正确答案)

B. R-squared(决定系数)
通常用于回归模型,衡量自变量对因变量的解释能力。多分类问题中不适用。

C. Explained variance score(可解释方差分数)
也是回归模型评估指标,不适用于分类任务。

D. F1 score(F1分数)
综合了精准率和召回率的调和平均,是多分类中常用的重要评估指标。(正确答案)

E. Mean squared error(均方误差)
主要用于回归任务,衡量预测值与实际值的平方差。


相关知识点总结

  • 分类模型常用指标:
    • Recall(召回率): 反映模型找回所有本属该类样本的能力。
    • F1 Score(F1分数): 精准率(precision)和召回率的调和平均,能综合反映分类质量。
  • 回归模型常用指标:
    • R-squared、Explained variance score、Mean squared error 等,仅适用于数值回归,不适用于分类。
  • 多分类评价:
    • 多分类时会对每一类分别计算 recall 和 F1,再宏/微平均(macro/micro average)。

Q42

A company is running a job in OCI Data Science Jobs and wants to ensure that the infrastructure is deprovisioned immediately after the job completes to avoid unnecessary costs.

What happens when the job ends?

A The compute shape is reset to default.
B The job artifact is deleted.
C The infrastructure remains active for 30 days.
D The infrastructure is automatically deprovisioned.


正确答案

** D The infrastructure is automatically deprovisioned.**


中文题目解析

一家公司在 OCI Data Science Jobs 中运行任务,希望确保任务完成后底层基础设施能立即释放,以避免不必要的开销。

问:当任务结束时,会发生什么?

A. 计算规格恢复为默认

B. 任务产物被删除

C. 基础设施保持激活30天

D. 基础设施会被自动释放


选项解释

A. The compute shape is reset to default.(计算规格恢复为默认)
这个选项并不是任务结束时的实际行为,和成本优化无关。

B. The job artifact is deleted.(任务产物被删除)
系统不会自动删除任务产物,数据仍需保留以便溯源和数据分析。

C. The infrastructure remains active for 30 days.(基础设施保持激活30天)
如果任务结束还保持激活,会持续产生费用,不符合用户“立即释放”需求。

D. The infrastructure is automatically deprovisioned.(基础设施会被自动释放)
这是 OCI Data Science Jobs 的标准行为,任务结束后自动释放底层算力,不会产生额外费用。(正确答案)


相关知识点总结

  • OCI Data Science Jobs 特点:
    作业(Job)一旦结束,相关的计算和存储资源会自动释放,避免持续计费导致不必要的云成本浪费。
  • 优势:
    提高资源利用率,降低用户需手动管理底层资源的运维负担。
  • 典型云最佳实践:
    自动化释放资源是云作业调度服务的通用优化点。

Q43

A data scientist needs to securely access an external database from their notebook session.
What is the best way to store the credentials?

A. Hardcode the credentials in the Jupyter Notebook.
B. Share the credentials via email with team members.
C. Save the credentials in OCI Vault and retrieve them programmatically when needed.
D. Store the credentials in a plaintext configuration file.


正确答案

C. Save the credentials in OCI Vault and retrieve them programmatically when needed.


中文题目与解析

一位数据科学家需要从他们的 notebook 会话中安全地访问外部数据库。
问题:存储凭证的最佳方式是什么?


选项逐项解析

  1. A. 在 Jupyter Notebook 中硬编码(直接写死)凭证。

    • 说明:把账号密码直接写在 notebook 代码中。这样做很不安全,因为 notebook 可能被分享、泄漏或被未授权的人访问。
  2. B. 通过邮件将凭证分享给团队成员。

    • 说明:通过电子邮件传播密码极不安全,邮箱容易泄漏或被攻击,且无法有效管控凭证的流转和撤回。
  3. C. 将凭证保存在 OCI Vault,并在需要时以编程方式检索。

    • 说明:OCI Vault(Oracle Cloud Infrastructure Vault)是一种加密和集中管理敏感信息的服务。通过程序化方式安全地检索凭证,极大提升了安全性和合规性,是业界推荐做法。
  4. D. 将凭证存储在明文配置文件中。

    • 说明:将凭证明文写在配置文件中非常不安全,因为配置文件容易被误传,也容易被泄漏到代码仓库或服务器。

相关知识点总结

  • 安全凭证管理原则:
    • 绝不应将敏感凭证(密码/密钥)硬编码在代码、明文文件或随意传播。
    • 推荐使用密码保险箱、密钥管理服务(如 OCI Vault、AWS Secrets Manager、Azure Key Vault 等)集中安全存储和管理凭证。
    • 应用程序应通过安全 API 程序化检索凭证,而不是依赖外部渠道(如邮件、明文配置)。
    • 定期轮换和管理凭证权限,减少泄漏风险。
  • 数据科学常见安全实践:
    • 利用环境变量或专用安全服务加载敏感信息。
    • 对 notebook、配置文件严格访问控制。
    • 避免凭证泄漏到版本控制系统(如 GitHub)。

牢记:最佳做法是使用官方的安全服务集中管理凭证,避免一切明文或非加密存储和传播。

Q44

Which resource types are included in the default matching rules of the Data Science Service template?

A. datasciencenetwork, datasciencedatabase, datasciencebackup
B. datascienceanalytics, datasciencemonitoring, datasciencebatchjob
C. datascienceobjectstorage, datasciencecomputeinstance, datasciencemodeltraining
D. datasciencemodeldeployment, datasciencenotebooksession, datasciencejobrun


正确答案

D. datasciencemodeldeployment, datasciencenotebooksession, datasciencejobrun


中文题目与选项

问题:
在 Data Science Service 模板的默认匹配规则中,包含哪些资源类型?

  1. datasciencenetwork, datasciencedatabase, datasciencebackup
  2. datascienceanalytics, datasciencemonitoring, datasciencebatchjob
  3. datascienceobjectstorage, datasciencecomputeinstance, datasciencemodeltraining
  4. datasciencemodeldeployment, datasciencenotebooksession, datasciencejobrun

选项分析

  1. datasciencenetwork, datasciencedatabase, datasciencebackup

    • 这些是典型的基础设施/数据库相关资源,而不是数据科学服务模板的核心部件。
  2. datascienceanalytics, datasciencemonitoring, datasciencebatchjob

    • 偏向监控、分析和批处理,不是典型的数据科学服务资源类型。
  3. datascienceobjectstorage, datasciencecomputeinstance, datasciencemodeltraining

    • 包含存储、计算、模型训练等,但不是模板中常见的“笔记本”和“作业”类型资源。
  4. datasciencemodeldeployment, datasciencenotebooksession, datasciencejobrun

    • 正确答案
    • 分别代表模型部署、notebook 会话、作业运行,是数据科学服务模板常规涉及的资源类型,也是默认匹配规则中主要关心的核心组件。

相关知识点总结

  • 数据科学服务(Data Science Service)模板通常专注于模型的开发、部署与自动化运行。
  • 核心资源包含:
    • 模型部署(modeldeployment):用于将训练好的模型部署以供推理和在线使用。
    • notebook 会话(notebooksession):数据科学家用来交互式编写代码、分析数据和开发模型的环境。
    • 作业运行(jobrun):表示定时或手动运行的数据处理或模型训练任务。
  • 其他选项中的资源类型涉及更基础的云资源、分析后台,或监控等,非 Data Science Service 默认核心对象。
  • 熟悉云平台的数据科学相关产品时,应掌握资源类型命名和功能归属,提高定位模板规则的能力。

Q45

A data scientist is using an AI model to predict fraudulent transactions. A financial regulator asks why a specific transaction was flagged as fraud.

Which technique should the data scientist use?

A. Feature Permutation Importance
B. What-If Explanation
C. Local Explanation
D. Global Explanation


正确答案

C. Local Explanation


中文题目与选项

问题:
一名数据科学家正在使用 AI 模型预测欺诈交易。一位金融监管机构问,为什么某一具体交易被标记为欺诈。
此时,数据科学家应该使用哪种技术进行解释?

  1. 特征排列重要性(Feature Permutation Importance)
  2. 假设分析解释(What-If Explanation)
  3. 局部解释(Local Explanation)
  4. 全局解释(Global Explanation)

选项逐项解析

  1. Feature Permutation Importance

    • 说明:评估整体模型中某一个特征对预测结果的全局重要性。更关注整个数据集,而非单笔交易。
    • 不适用于解释单条具体样本决策。
  2. What-If Explanation

    • 说明:分析“如果某些特征值变化,预测结果会怎样”,常常用于敏感性分析。
    • 虽然可以辅助理解模型,但不专注于回答“为什么单条记录被某种方式判断”。
  3. Local Explanation

    • 说明:正确答案
    • 用于解释模型对某一个具体样本、事件或记录做出决策的原因。适用于监管问“这笔交易为什么被判为欺诈”这类问题(如 LIME、SHAP 的 local 解释)。
    • 明确给出具体实例的贡献因素,满足场景要求。
  4. Global Explanation

    • 说明:解释整个模型在全部数据集上的普遍决策规律或全局特征贡献。
    • 无法针对特定交易/样本给出确切的原因。

相关知识点总结

  • 局部解释(Local Explanation):针对单个实例的决策做解释,揭示某一具体预测背后的驱动因素。常见的局部解释方法有 LIME(局部可解释模型-不可知解释器)、SHAP 等。
  • 全局解释(Global Explanation):侧重于模型的整体行为,对全部预测结果提供概括描述,常见于模型开发阶段而非合规追溯。
  • 特征排列重要性:全球特征重要性评估,不针对具体样本。
  • “What-if”分析:探究特征变化对结果的影响,更适合敏感性测试或假设情境,不直接用于合规场景下的因果解释。
  • 在AI合规、金融监管等场景中,经常要求可复现、可信的单实例解释,即局部解释。

Q46

What is the primary advantage of using Conda environments in Data Science?

A. They help in compressing datasets for storage efficiency.
B. They enable isolated software configurations for different projects.
C. They provide faster GPU processing speeds.
D. They replace the need for cloud storage in machine learning projects.


正确答案

B. They enable isolated software configurations for different projects.


中文题目与选项

在数据科学中使用 Conda 环境的主要优势是什么?

  1. 它们有助于压缩数据集以提高存储效率。
  2. 它们能够为不同项目实现隔离的软件配置。
  3. 它们可以提供更快的 GPU 处理速度。
  4. 它们可以替代机器学习项目中的云存储需求。

选项逐项解析

  1. 它们有助于压缩数据集以提高存储效率。

    • 解释:Conda 环境并不涉及数据集的压缩,主要用于软件管理。
  2. 它们能够为不同项目实现隔离的软件配置。

    • 正确答案
    • 解释:Conda 环境的核心用途是为不同项目创建互不干扰、隔离的软件依赖和配置,避免包版本冲突。这也是数据科学多项目协作的最佳实践。
  3. 它们可以提供更快的 GPU 处理速度。

    • 解释:GPU 处理速度主要受硬件和底层驱动影响,与 Conda 环境无直接关系。
  4. 它们可以替代机器学习项目中的云存储需求。

    • 解释:Conda 环境仅负责本地软件和依赖管理,不涉及存储替代。

相关知识点总结

  • Conda 环境是一种流行的数据科学包和依赖管理工具,可以让用户轻松创建多个相互隔离的开发环境。
  • 不同项目可以同时在同一台计算机上运行不同 Python/R 包的版本而互不冲突。
  • 对于机器学习、数据分析等涉及各种复杂依赖的场景,Conda 极大提高了开发和部署的灵活性和可靠性。
  • 其他数据管理、计算性能或存储相关功能并不是 Conda 的核心优势。

Q47

Which two statements are true about Oracle Cloud Infrastructure (OCI) Open Data Service?

A. Subscribers can pay and log into Open Data to view curated data sets that are otherwise not available to the public.
B. Open Data is a dataset repository made for the people that create, use, and manipulate datasets.
C. Open Data includes text and image data repositories for AI and ML. Audio and video formats are not available.
D. Each dataset in Open Data consists of code and tooling usage examples for consumption and reproducibility.
E. A primary goal of Open Data is for users to contribute to the data repositories in order to expand the content offered.


正确答案

B. Open Data is a dataset repository made for the people that create, use, and manipulate datasets.
D. Each dataset in Open Data consists of code and tooling usage examples for consumption and reproducibility.


中文题目与选项

关于 Oracle Cloud Infrastructure (OCI) 的 Open Data 服务,下列哪两项陈述是正确的?

  1. 订阅用户可以付费登录 Open Data 以查看仅向特定用户开放的数据集。
  2. Open Data 是为创建、使用和操作数据集的人们构建的数据集存储库。
  3. Open Data 仅包含 AI 和 ML 用的文本和图片数据存储库。不支持音频和视频格式。
  4. Open Data 中的每个数据集都包含代码和工具使用示例,便于数据消耗和可复现性。
  5. Open Data 的主要目标是鼓励用户贡献数据来扩展内容库。

选项逐项解析

  1. 订阅用户可以付费登录 Open Data 以查看仅向特定用户开放的数据集。

    • 解析:Open Data 是公开的数据集服务,面向所有用户,无需付费登录浏览,错误。
  2. Open Data 是为创建、使用和操作数据集的人们构建的数据集存储库。

    • 正确答案
    • 解析:官方定位就是开放服务平台,方便数据的获取、共享和研究。
  3. Open Data 仅包含文本和图片数据,不支持音频和视频。

    • 解析:Open Data 支持多类型数据,包括文本、图片、音频和视频。该说法不完整且不准确。
  4. Open Data 中的每个数据集都包含代码和工具使用示例,便于数据消耗和可复现性。

    • 正确答案
    • 解析:Open Data 鼓励可重复使用,数据集通常附带相关代码和工具示例,支持可复现实验。
  5. Open Data 的主要目标是鼓励用户贡献数据来扩展内容库。

    • 解析:虽然有开放协作的性质,但主要目标还是方便数据的获取、共享及可复现。该说法为次要目标,不是最主要的特征。

Oracle Open Data 平台


1. Oracle Open Data 简介及优势
  • 可信开放数据:平台提供可信、可访问的数据集,内容经过整理、管理并已准备好可直接使用。
  • 数据来源权威:所有数据集均来自全球顶级机构,例如 NASA(美国航空航天局)、DeepMind、Stanford(斯坦福大学)等。
  • 易操作性:Open Data 平台界面友好,支持便捷的浏览、检索和下载数据。

2. 平台特性
  • 数据仓库持续更新:平台定期更新数据资源,确保用户可获得最前沿的数据集。
  • 配套示例丰富:每个数据集都配有示例代码和工具使用说明,便于数据消费和实验复现。
  • 多领域覆盖:涵盖多个行业和学科领域,服务于科研、开发、数据科学等广泛场景。

3. 访问方式与操作
  • 访问地址:opendata.oraclecloud.com
  • 点击 Explore Repository(浏览仓库)按钮,即可进入完整数据集目录。
  • 支持在线浏览、快速检索、直接下载。

4. 推荐使用场景
  • 作为公开、权威、可复现的数据源,为机器学习、科学分析、教育研究等提供数据基础与案例。
  • 利用代码和工具示例,推动数据的易用性和项目的可复用性。

Q48

You have trained a binary classifier for a loan application and saved this model into the model catalog. A colleague wants to examine the model, and you need to share the model with your colleague.

From the model catalog, which model artifacts can be shared?

A. Models and metrics only
B. Metadata, hyperparameters, and metrics only
C. Models, model metadata, hyperparameters, and metrics


正确答案

C. Models, model metadata, hyperparameters, and metrics


中文题目与选项

你为贷款申请训练了一个二分类器,并将该模型保存在模型目录中。有同事想检查这个模型,需要和他共享模型。从模型目录中,哪些模型工件可以共享?

A. 只能是模型和评估指标
B. 只能是元数据、超参数和评估指标
C. 模型、模型元数据、超参数和评估指标都可以共享


选项逐项解析

  1. 只能是模型和评估指标

    • 解析:能共享的内容不限于模型和指标。还包括其它关键信息。
  2. 只能是元数据、超参数和评估指标

    • 解析:缺少了最重要的“模型”本身,不能实际复现或部署。
  3. 模型、模型元数据、超参数和评估指标都可以共享

    • 正确答案
    • 解析:在模型目录(model catalog)中,可以把模型本体(model)、元数据(metadata)、超参数(hyperparameters)以及评估指标(metrics)等工件一同用于协作和共享。这涵盖了模型的所有关键要素,方便团队审核、部署和复现。

相关知识点总结

  • 模型目录(Model Catalog):常用于存放和管理机器学习模型及其相关工件,便于模型的复用、共享和协作。
  • 典型可共享工件包括:
    • 模型文件(如 pickle、ONNX、h5 等格式)
    • 模型元数据(创建时间、作者、描述等信息)
    • 超参数(训练时用到的参数配置)
    • 评估指标(如准确率、召回率等性能数据)
  • 全量共享可提高项目的可复现性、便于团队协作和模型监管

Q49

What is the primary goal of the loss function in model training?

A. To maximize the likelihood of data points fitting the model
B. To compare predicted values with true target values and quantify their difference
C. To determine the best algorithm for training the model
D. To update the model parameters to optimize performance


正确答案

B. To compare predicted values with true target values and quantify their difference


中文题目与选项

模型训练中,损失函数的主要目标是什么?

  1. 最大化数据点适应模型的概率
  2. 比较预测值与真实目标值,并量化它们之间的差异
  3. 决定用于训练模型的最佳算法
  4. 更新模型参数以优化性能

选项逐项解析

  1. 最大化数据点适应模型的概率

    • 解析:虽然概率最大化与某些训练方法相关(如最大似然估计),但这不是损失函数的直接主要目标。
  2. 比较预测值与真实目标值,并量化它们之间的差异

    • 正确答案
    • 解析:损失函数(loss function)就是计算模型预测值和真实值间的误差或者差异,然后用这个差异作为优化的依据。这种量化误差是所有损失函数的核心所在。
  3. 决定用于训练模型的最佳算法

    • 解析:算法的选择与损失函数无关,损失函数只衡量模型好坏,而不选具体训练算法。
  4. 更新模型参数以优化性能

    • 解析:虽然参数更新(如梯度下降)依赖损失函数的结果,但损失函数主要是“衡量”工具,而不是直接“更新”参数。

相关知识点总结

  • 损失函数(Loss function)在机器学习和深度学习中用于量化一个模型的预测结果与真实标签之间的差异。
  • 常见损失函数:均方误差(MSE)、交叉熵(cross-entropy)等。
  • 损失函数的数值会直接决定模型参数(如权重)的更新方向和幅度,是训练优化环节的基础。
  • 损失的本质:作为模型优劣的度量标准,不涉及模型架构选择,也不代表参数优化算法本身。

Q50

You have custom data and you want to customize an off-the-shelf LLM and deploy it quickly.
How can AI Quick Actions help you?

A. To pretrain the LLM
B. To deploy the off-the-shelf model
C. To fine-tune the model and deploy

答案:C

中文翻译题目和选项

假如你有自定义数据,并希望快速定制和部署现成的LLM(大语言模型)。
AI快速操作如何帮助你?

A. 预训练LLM
B. 部署现成的模型
C. 微调模型并部署

题干含义:
题目询问如何利用AI快速操作功能,根据自定义数据快速定制现成的LLM并进行部署。

选项分析

  1. A: 预训练LLM通常需要大量计算资源和时间,不是快速实现的直接途径。
  2. B: 直接部署现成的模型不符合定制的要求,因为现成的模型不能基于用户的自定义数据进行特定调整。
  3. C: 微调模型并部署,是指在现成的模型基础上,利用自定义数据进行参数更新,使之更适应于特定需求。这是快速且有效的定制和部署方式。(正确答案

相关知识点总结

  • 微调(Fine-tuning) 是在已训练好的模型基础上,利用小规模数据进行轻量级训练以适应特定任务的方法,相较于从零开始训练要高效得多。
  • 微调过程结合了模型已有的广泛知识,并通过更新特定任务的参数来提升模型的适用性和性能。

AI Quick Actions

什么是 AI Quick Actions?

AI Quick Actions 是一套用于在 Oracle Cloud Infrastructure (OCI) 数据科学中部署、评估和微调基础模型的动作集合。这些动作适用于希望快速利用 AI 能力的用户。其目标是通过提供代码简洁、高效的环境,使基础模型能够接触到更多的用户。

功能和特点
  • 简易访问: 从数据科学笔记本界面即可访问,用户无需编写代码。
  • 广泛适用: 通过流线化的方式,让广泛用户群体能够使用强大的基础模型。
  • 效率优先: 节省时间和精力,适合想快速产出结果的用户。
使用示例

一个常见的使用场景是市场营销高管需要为公司博客撰写成功案例。这时,你可以:

  1. 采访客户,得出他们的满意访谈录。
  2. 使用 AI Quick Actions,将访谈逐字稿转化为符合公司风格和叙事的博客文章。
  3. 强调诸如成本节约或竞争优势的内容。
  4. 生成其他语言版本的博客。
使用流程
  1. 模型探索器: AI Quick Actions 首先引导用户进入模型探索器。
  2. 模型选型: 用户可以选择适合其用例的模型进行部署和微调。Oracle 已对这些模型进行测试,但未做修改。
  3. 性能评估: 可以评估每个模型的性能,了解其优劣势及其在不同任务中的适用性。

AI Quick Actions 为那些希望利用 AI 进行快速应用和开发的用户提供了一整套简便的功能,支持从基础模型的探索到成果输出的整个流程。

Q51

A company wants to integrate an LLM into its customer support chatbot using OCI.
What is the fastest way to deploy and test the model?

A. Training a custom model from scratch using OCI AutoML
B. Using AI Quick Actions to quickly deploy a pretrained LLM
C. Manually configuring a model deployment using OCI SDK
D. Building a deep learning model in Jupyter Notebook

答案:B

中文翻译题目和选项

一家公司希望通过OCI将LLM集成到其客户支持聊天机器人中。
部署和测试模型的最快方式是什么?

A. 使用OCI AutoML从头开始训练一个自定义模型
B. 使用AI快速操作快速部署预训练LLM
C. 使用OCI SDK手动配置模型部署
D. 在Jupyter Notebook中构建深度学习模型

题干含义:
问题询问公司如何最快速地进行部署和测试,使用OCI将LLM集成到客户支持聊天机器人中。

选项分析

  1. A: 从零开始训练模型需要大量时间和计算资源,不是最快的解决方案。
  2. B: 使用AI快速操作可以直接部署预训练LLM,速度最快,尤其对于需要快速实施的任务。(正确答案
  3. C: 手动配置涉及较多步骤和验证过程,不够迅速。
  4. D: 在笔记本中构建模型同样需要多步骤开发和调试,时间较长。

相关知识点总结

  • 快速部署: 使用预训练模型是节省训练时间的有效方式,适合需要快速响应和部署的业务场景。
  • AI Quick Actions: 提供自动化工具和界面,简化部署流程,实现快速部署。
  • 选择快速实施方案需考虑实际需求、资源限制及工具可用性。

Q52

What is the difference between a job and a job run in OCI Data Science Jobs?

A. A job is a single execution, while a job run is a template.
B. A job is a template, while a job run is a single execution of that template.
C. A job is used for model training, while a job run is used for batch inference.
D. A job is immutable, while a job run can be modified.

答案:B

中文翻译题目和选项

在OCI数据科学工作中,作业与作业运行之间的区别是什么?

A. 作业是单次执行,而作业运行是一个模板。
B. 作业是一个模板,而作业运行是该模板的一次执行。
C. 作业用于模型训练,而作业运行用于批量推理。
D. 作业是不可变的,而作业运行可以被修改。

题干含义:
问题询问在OCI数据科学工作中的 "作业" 和 "作业运行" 的区别。

选项分析

  1. A: 错误选项,描述颠倒了模板与执行关系。
  2. B: 正确选项,作业是创建的模板,而作业运行是该模板的执行实例。(正确答案
  3. C: 不符合作业与运行的定义,作业和运行不分别用于训练与推理。
  4. D: 作业本身是否可变与执行无直接关联。

核心概念:Job 与 Job Run

Job :定义任务的“模板”,包含执行指令(artifact)、资源配置、环境变量等
Job Run : ob 的一次实际执行,可传入不同参数,自动部署资源,运行后销毁
一个 Job 可有多个 Job Run(串行或并行执行),可用于调参实验、重复执行等

Q53

What triggers the automation of the MLOps pipeline?

A. Manual intervention by data scientists
B. Changes in data, monitoring events, or calendar intervals
C. Random system updates
D. User feedback

答案:B

中文翻译题目和选项

是什么触发了MLOps流水线的自动化?

A. 数据科学家的人工干预
B. 数据变化、监控事件或日历间隔
C. 随机系统更新
D. 用户反馈

题干含义:
题目询问在机器学习运维(MLOps)流水线中,什么因素可以自动触发其流程执行。

选项分析

  1. A: 需要人为干预,不在自动化范畴内。
  2. B: 数据变化、监控事件或特定时间间隔是常见的自动触发因素,适应动态和周期性要求。(正确答案
  3. C: 随机系统更新不是自动化驱动因素,通常未规划进作业流程。
  4. D: 用户反馈一般作为流程优化的方向,对自动化触发有限直接作用。

MLOps

  • MLOps 是 Machine Learning Operations 的简称,即“机器学习运维”。
  • 它借鉴了 DevOps(开发与运维一体化)的方法论。
  • 目标是:提高机器学习工作流程效率,并保持结果的一致性与可重复性

2. MLOps 的核心理念
  • 将机器学习模型视为一种“软件资产”。
  • 通过标准化与自动化方式管理模型的全生命周期。
  • 模型和相关服务一起作为一个整体发布上线。

3. 与 DevOps 的关系与区别
  • 两者都强调:

    • 构建(Build)
    • 测试(Test)
    • 持续部署(Continuous Deployment)
    • 监控(Monitoring)
  • MLOps 额外增加的特点:

    • Continuous Training(持续训练):因为数据是不断变化的,模型必须定期重新训练。
    • 模型验证(Model Validation):每次训练后都要确保模型质量达标,才能再次部署。

4. 为什么持续训练(Continuous Training)很重要?
  • 与传统软件不同,机器学习模型受 数据漂移(Data Drift) 影响大。
  • 如果模型不及时更新,预测准确率会下降。
  • 所以,需要有机制监控模型性能,一旦下降,就触发重新训练与部署。

5. MLOps 自动化成熟度阶段
  1. 手动阶段

    • 使用像 Jupyter Notebooks 这样的工具手动执行数据准备、模型训练与验证。
    • 适合实验阶段,开发灵活,但不易重复。
  2. 流水线自动化阶段

    • 将训练和验证流程通过自动化工具连接起来。
    • 每当有新数据进入时,自动触发模型训练与评估。
  3. CI/CD 自动化阶段(真正的 MLOps)

    • 使用 CI(持续集成) + CD(持续部署) 管理整个模型生命周期。
    • 模型、数据、代码都自动构建、测试、上线。
    • 性能监控业务指标 结合,当模型效果变差时,自动触发新一轮训练。

6. Oracle Cloud 中的 MLOps 架构(简述)
  • 数据输入 → Jupyter Notebooks 模型开发
  • 触发 OCI DevOps CI/CD 管道
  • 执行模型训练 → 存入模型目录(Model Catalog)
  • 测试通过后 → 上线部署至生产环境
  • 模型服务最终提供给终端用户使用
  • 整个过程中伴随持续监控自动回滚机制

Q54

A data scientist is running a long-term experiment in an OCI notebook session. They need to save results even if they deactivate the session to reduce costs. What should they do?

A. Save results only in the boot volume, as it is retained indefinitely.
B. Keep the session active indefinitely to prevent data loss.
C. Use default networking to automatically back up results to OCI Object Storage.
D. Store all results in the block storage, as it persists after deactivation.

答案:D

中文翻译题目和选项

数据科学家正在OCI笔记本会话中进行长期实验。他们需要在会话停用时仍然保存结果以减少成本。应该怎么做?

A. 仅将结果保存在引导卷中,因为它会无限期保留。
B. 在整个会话中始终保持激活以防止数据丢失。
C. 使用默认网络设置自动备份结果到OCI对象存储。
D. 将所有结果存储在块存储中,因为会话停用后仍然存在。

题干含义:
数据科学家需要确保在停用OCI笔记本会话后,实验结果仍得以保留,避免因节省成本而导致的数据丢失。

选项分析

  1. A: 引导卷可能有限制且易错载,不建议作为长期存储解决方案。
  2. B: 始终保持会话活跃将导致极高的运行成本,无法解决成本控制问题。
  3. C: 默认网络设置并不总是确保自动备份到对象存储,且需配置备份规则。
  4. D: 使用块存储可以保证存储的结果在会话结束后仍然保留,是可靠的长期存储解决方案。(正确答案

相关知识点总结

  • 块存储: 提供保持独立于计算实例生命周期的持久化存储,适合长期数据管理。
  • 成本与数据保留: 停用不必要的会话可以有效节约计算成本,必须结合持久化存储选项以保障数据完整性。
  • OCI存储选项: 不同的存储介质在性能、保留策略、成本和使用场景上有所不同,应根据具体需求选择。

Q55

What is the purpose of a dynamic group in OCI?

A. To group individual users for easier management
B. To manage API access for resources such as notebook sessions
C. To define storage limits for data science resources
D. To allocate computing resources dynamically

答案:B

中文翻译题目和选项

在OCI中,动态组的目的是什么?

A. 将个人用户分组以便于管理
B. 管理诸如笔记本会话等资源的API访问
C. 为数据科学资源定义存储限制
D. 动态分配计算资源

题干含义:
问题询问动态组在OCI(Oracle Cloud Infrastructure)中的具体目的。

选项分析

  1. A: 将用户进行管理分组更适合于静态群组,而非动态组的功能。
  2. B: 动态组用于管理实例及资源的API访问,通过设置规创建按条件分配的资源权限。(正确答案
  3. C: 动态组不涉及存储限额,存储管理通常与策略和设置相关。
  4. D: 动态组不是用来直接分配计算资源,而是用于权限与访问控制。

相关知识点总结

  • 动态组(Dynamic Group): 由规则动态匹配的资源集合(如notebook session、job run、model deployment等)。可随着资源变化自动调整成员。资源作为“主体”,可根据policy直接调用云API。
  • API访问管理: 通过动态组,能够定义更细致的API控制策略,提高资源访问安全性。
  • OCI策略管理: 与策略结合实现不同资源级别的权限设定,使动态组可以灵活适应变化的基础设施环境。

Q56

A data scientist is working on a project to train a machine learning model to identify tigers in images. What is the first step they need to take before training the model?

A. Deploy the model.
B. Label the images with "tiger" or "not tiger".
C. Use OCI Vision Services.
D. Analyze customer feedback.

答案:B

中文翻译题目和选项

数据科学家正在进行训练机器学习模型以识别图像中老虎的项目。在训练模型之前,他们需要采取的第一步是什么?

A. 部署模型。
B. 将图像标注为“老虎”或“非老虎”。
C. 使用OCI视觉服务。
D. 分析客户反馈。

题干含义:
题目询问训练机器学习模型来识别图像中老虎前的首要步骤。

选项分析

  1. A: 部署通常是训练完成后的步骤,不能作为首要步骤。
  2. B: 标注数据是训练监督学习模型的基本步骤之一,提供机器学习算法必须的标签信息。(正确答案
  3. C: 使用OCI视觉服务可能用于应用和分析阶段,非模型训练的初始步骤。
  4. D: 客户反馈的分析与特定模型初始化没有直接关系。

相关知识点总结

  • 数据标注: 监督学习中重要的前置任务,通过标签来训练模型识别特定对象或模式。
  • 训练准备: 数据质检、标注、清洗及分割是模型训练的前序及核心步骤。
  • 模型准备阶段: 确保数据完整和有质量的标签是保障模型训练效果的第一步。

Q57

A healthcare company needs to redact personal details (such as names, emails, and phone numbers) from patient records before sharing them with a research institute. Which operator is best suited for this task?

A. Forecasting Operator
B. Anomaly Detection Operator
C. PII Detection Operator
D. Clustering Operator

答案:C

中文翻译题目和选项

一家医疗公司需要在与研究机构共享之前从病人记录中删除个人详细信息(例如姓名、电子邮件和电话号码)。哪个操作员最适合完成该任务?

A. 预测操作员
B. 异常检测操作员
C. PII检测操作员
D. 聚类操作员

选项分析

  1. A: 预测操作员用于时间序列或趋势分析,与信息删除任务无关。
  2. B: 异常检测操作员用于识别数据中的异常模式,不适于删除个人信息。
  3. C: PII检测操作员专用于识别和处理个人可识别信息,能够有效定位并去除这些信息。(正确答案
  4. D: 聚类操作员用于分组或分类数据,不涉及信息删除。

Operators

什么是 Operators?

Operators 是一套预打包的解决方案,旨在满足广泛的数据科学需求。它们提供用户友好的低代码界面,使不同水平的用户都能轻松开展数据科学任务。

功能和特点
  • 易用性:

    • 为用户提供无需专业领域知识的操作,每个操作都自带必要的领域知识。
    • 配备关键的配置选项,允许领域专家微调操作的行为。
    • 默认配置包含领域特有信息,用户可以立即着手使用,而无需自定义设置。
  • 应用范围广:

    • 可以在多种环境中运行,包括 OCI 数据科学任务、OCI 数据流应用、Kubernetes (K8s),以及本地环境。
    • 这种灵活性使用户能够根据需求选择最佳环境。
  • CLI 工具支持:

    • 提供易于使用的 CLI 工具来简化跨不同环境的部署过程。
    • 不论是云端还是本地部署,Operators 为软件工程师、数据科学家和领域专家提供了一种高效可定制的解决方案。
可用的 Operator 解决方案
  • AI 预测 Operator(AI Forecast Operator)
  • 异常检测(Anomaly Detection)
  • 基于时间的异常检测(Time-Based Anomaly Detection)
  • 推荐系统(Recommender)
  • 个人身份信息处理(Personal Identifiable Information)
优势
  • 无需领域知识: 使用者无需成为领域专家即可使用 Operators。
  • 可配置选项: 可供领域专家进行进一步定制。
  • 开箱即用: 默认设置齐全,节省时间。
  • 多样化部署: 可应需选择部署环境,提供了强大的灵活性。

Operators 为各层面的用户提供了一种简便且全面的解决方案,使得数据科学变得简洁高效。

Q58

While working with Git on Oracle Cloud Infrastructure (OCI) Data Science, you notice that two of the operations are taking more time than the others due to your slow internet speed. Which two operations would experience the delay?

A Pushing changes to a remote repository
B Moving changes into the staging area for the next commit
C Making a commit that is taking a snapshot of the local repository for the next push
D Updating the local repo to match the content from a remote repository
E Converting an existing local project folder to Git repository

答案:AD

中文翻译题目和选项

在Oracle Cloud Infrastructure (OCI) 数据科学平台上使用Git时,你注意到由于网络速度较慢,有两个操作需要比其他操作更长的时间。哪两个操作会经历延迟?

A 将更改推送到远程存储库
B 将更改移入暂存区以进行下次提交
C 提交以为下次推送捕获本地存储库快照
D 更新本地存储库以匹配远程存储库中的内容
E 将现有本地项目文件夹转换为Git存储库

题干含义:

题目询问在慢速网络下,哪些Git操作会由于网络限制而导致延迟增加。

选项分析

A. Pushing changes to a remote repository: 涉及将本地更改传输到远程,受网络速度影响,延迟最大化。(正确答案
B. Moving changes into the staging area for the next commit: 是本地操作,不涉及网络传输。
C. Making a commit: 在本地仓库进行快照保存,与网络无关。
D. Updating the local repo to match the content from a remote repository: 涉及将远程更改拉取到本地,网络慢时同样会延长时间。(正确答案
E. Converting a local project folder to a Git repository: 完全是本地任务,不依赖网络。

相关知识点总结

  • 网络影响: Git 操作中凡是涉及远程数据交互(如推送和拉取)都会受限于网络速度。
  • 本地操作: 包括变更移动、提交、版本初始化等不受网络因素影响。
  • 效率管理: 在网络较慢的情况下,需尽可能地减少远程数据交换,提高其他方面工作效率。

Q59

How can a team ensure that data processing occurs before model training in a pipeline?

A. By increasing the block volume size
B. By setting dependencies between steps
C. By using the same programming language for all steps
D. By overriding the default configuration

答案:B

中文翻译题目和选项

团队如何确保在流水线中数据处理发生在模型训练之前?

A. 通过增加块卷大小
B. 通过在步骤之间设置依赖关系
C. 为所有步骤使用相同的编程语言
D. 通过覆盖默认配置

题干含义:

题目询问在一个处理流水线中,如何确保数据处理步骤在模型训练步骤之前发生。

选项分析

  1. A: 块卷大小的增加与任务顺序无关。
  2. B: 通过设置任务间的依赖关系保证了步骤的顺序执行,确保数据处理先于模型训练。(正确答案
  3. C: 使用相同编程语言保持一致性,但与步骤顺序无直接关系。
  4. D: 覆盖默认配置不保证任务顺序,需明确定义依赖以解决顺序问题。

pipeline执行顺序控制(依赖)

  • 默认情况下,所有步骤并行执行。
  • 通过显式设定依赖关系,可以实现步骤按顺序执行:
    • 先数据处理 → 再模型训练 → 再模型评估 → 最后模型部署。

Q60

Which statement is true regarding autoscaling configuration for an existing model deployment in an Active state in Oracle Data Science?

A. You can modify the Autoscaling Scaling Policy fields and other configurations simultaneously.
B. You must disable the model deployment to update the Autoscaling Scaling Policy fields.
C. Changes to the Autoscaling Scaling Policy fields must occur one field at a time, without simultaneous changes to other configurations.
D. Only non-infrastructure-related aspects can be modified for an active model deployment.

答案:C

中文翻译题目和选项

在Oracle数据科学中,对于处于活动状态的现有模型部署,关于自动扩展配置哪个说法是正确的?

A. 您可以同时修改自动扩展政策字段和其他配置。
B. 您必须禁用模型部署才能更新自动扩展政策字段。
C. 自动扩展政策字段的更改必须逐个字段进行,不能与其他配置同时更改。
D. 仅可以为活动模型部署修改非基础设施相关的方面。

题干含义:

题目要求找出关于Oracle数据科学中活动模型部署的自动扩展配置的正确描述。

选项分析

  1. A: 同时修改多项设置通常存在风险,尤其是在活动状态下影响服务可用性。
  2. B: 操作配置更新不一定需要先禁用部署,可能根据平台具体实现而异。
  3. C: 按字段逐步调整可以最大限度减少对活跃状态服务的干扰,确保更改的安全性和可控性。(正确答案
  4. D: 活动模型部署中除非明确限制性要求,基础设施性质调整通常在维护窗进行。

相关知识点总结

  • 活动状态下的修改建议: 为降低风险和服务影响,关键配置宜逐步改动。
  • 自动扩展配置: 设计灵活且需要高度精细的控制,适应变化中的工作负载需求。
  • Oracle数据科学模型部署: 在活动/生产环境中管理配置涉及对可用性、安全性与性能的深刻理解和小心操作。

Q61

Arrange the following points in the correct Git Repository workflow order.

  1. Install, configure, and authenticate Git.
  2. Configure SSH keys for the Git repository.
  3. Create a local and remote Git repository.
  4. Commit files to the local Git repo.
  5. Push the commit to the remote Git repo.

A. 1, 2, 3, 4, 5
B. 2, 3, 1, 4, 5
C. 3, 5, 1, 2, 4
D. 4, 2, 3, 1, 5

答案:A

中文翻译题目和选项

按正确的Git存储库工作流程顺序排列下列步骤。

  1. 安装、配置和验证Git。
  2. 为Git存储库配置SSH密钥。
  3. 创建本地和远程Git存储库。
  4. 将文件提交到本地Git存储库。
  5. 将提交推送到远程Git存储库。

A. 1, 2, 3, 4, 5
B. 2, 3, 1, 4, 5
C. 3, 5, 1, 2, 4
D. 4, 2, 3, 1, 5

题干含义:

题目要求将Git工作流的各个步骤按正确的顺序排列。

选项分析

  • A: 是正解:首先安装、配置并验证Git,以确保系统内环境配置可使得Git运行。接着配置SSH密钥实现安全通信,然后创建本地和远程仓库来存放项目,再将文件更改提交到本地仓库,最后推送到远程仓库。(正确答案
  • B: 开始时配置SSH,但该步骤需在确保Git已安装后完成,顺序不对。
  • C: 直接创建仓库,而未先配置Git环境和验证安全,不符合实际操作。
  • D: 先提交文件和配置SSH打破了逻辑流程完整性,顺序误置。

相关知识点总结

  • Git工作流基础: 按序执行配置和动作步骤以建立和维护稳定的版本控制环境。
  • SSH配置的必要性: 确保远程操作的安全和认证。
  • 推送与提交: 本地版本管理到远程版本共享之间的关键过渡。

Q62

Once you deploy the LLM using AI Quick Actions, how can you invoke your model?

A. Through API
B. Through CLI
C. Through API and CLI
D. Through only CLI

答案:C

中文翻译题目和选项

使用AI快速操作部署LLM后,如何调用您的模型?

A. 通过API
B. 通过CLI
C. 通过API和CLI
D. 仅通过CLI

题干含义:

题目询问在使用AI Quick Actions部署LLM之后,调用模型的方法。

选项分析

  • A: 仅通过API调用,缺乏更多途径。
  • B: 仅通过CLI调用,局限于命令行交互。
  • C: 部署后同时支持通过API 和 CLI调用模型,提供灵活性和便捷的访问选择。(正确答案
  • D: 限制在CLI交互,减少了系统集成和自动化能力。

相关知识点总结

  • LLM的调用方式: 通常支持通过API和CLI访问,确保集成和交互的便捷性。
  • AI Quick Actions功能: 快速部署及集成操作,支持多种交互方式。
  • 系统灵活性: 能同时支持API和CLI有助于开发与运维的协同,提高工作效率。

Q63

You have been given a collection of digital files required for a business audit. They consist of several different formats that you would like to annotate using Oracle Cloud Infrastructure (OCI) Data Labeling.
Which three types of files could this tool annotate?

A. Images of computer server racks
B. A type-written document that details an annual budget
C. A collection of purchase orders for office supplies
D. Video footage of a conversation in a conference room
E. An audio recording of a phone conversation

正确答案:ABC

中文翻译题目和选项

您收到了一组需要进行业务审计的数字文件。这些文件由几种不同的格式组成,您希望使用 Oracle Cloud Infrastructure (OCI) 数据标签工具进行标注。
哪三种类型的文件可以用这个工具标注?

A. 计算机服务器机架的图片
B. 详细年预算的打字文档
C. 办公用品采购订单集合
D. 会议室对话的视频片段
E. 电话对话的音频记录

题干含义:
题目要求辨别可以通过 Oracle 云基础设施 (OCI) 数据标签工具进行标注的三种文件类型。

选项分析

  1. A: 计算机服务器机架的图片。图片数据是常见的可用于标注的类型。(正确答案
  2. B: 年度预算的打字文档。文档数据可以提取内容以进行标注。(正确答案
  3. C: 办公用品采购订单集合。从文档中可检索并标注相应的信息。(正确答案
  4. D: 会议室对话的视频片段。视频通常需要更为复杂的处理,并不常用标准标注工具。
  5. E: 电话对话的音频记录。音频标注工具通常与视频不同。

相关知识点总结

  • 数据标注工具一般用于文本、图像和某些结构化数据。例如,文本标注可用于自然语言处理任务,图像标注可用于图像识别与分类。
  • 视频和音频数据通常需要专业的、多层次的标注工具。
  • OCI 数据标注平台支持的主要是文本和图像数据,支持自动化和半自动化的标注流程,提升数据处理效率。

Q64

As a data scientist for a hardware company, you have been asked to predict the revenue demand for the upcoming quarter. You develop a time series forecasting model to analyze the data.
Which is the correct sequence of steps to predict the revenue demand values for the upcoming quarter?

A. Prepare model, verify, save, deploy, predict.
B. Prepare model, deploy, verify, save, predict.
C. Verify, prepare model, deploy, save.
D. Predict, deploy, save, verify, prepare model.

正确答案:A

中文翻译题目和选项

作为一家硬件公司的数据科学家,您被要求预测下一季度的收入需求。您开发了一个时间序列预测模型来分析数据。
预测下季度收入需求值的正确步骤顺序是什么?

A. 准备模型,验证,保存,部署,预测。
B. 准备模型,部署,验证,保存,预测。
C. 验证,准备模型,部署,保存。
D. 预测,部署,保存,验证,准备模型。

题干含义:
题目要求确定实现收入需求预测的正确步骤顺序,从模型准备到预测。

选项分析

  1. A: 这一步骤反映了常见的数据科学流程,从模型准备开始到验证,保存,部署再到最终的预测,流程严谨合理。(正确答案
  2. B: 部署应该在验证之后完成,以确保模型可靠。
  3. C: 在准备模型之前的验证步骤没有意义,且缺少预测步骤。
  4. D: 步骤顺序不符合常理,预测应该是最后一步。

相关知识点总结

  • 数据科学流程通常包括:准备或建立模型、验证模型、保存模型、部署模型、进行预测。
  • 验证模型很关键,确保数据结果的准确性。
  • 部署模型之后,才能在新数据上进行预测
  • 模型的保存确保可以在未来访问,方便后续使用和调优。

Q65

What happens when a model deployment in OCI Data Science is deactivated?

A. The deployed model is permanently deleted, and predictions are no longer possible.
B. The model deployment metadata is erased along with the model artifacts.
C. The model's HTTP endpoint becomes unavailable, but metadata is preserved.
D. The model remains active but stops accepting new inference requests.

正确答案:C

中文翻译题目和选项

当在 OCI 数据科学中的模型部署被停用时,会发生什么?

A. 已部署的模型会被永久删除,并且无法再进行预测。
B. 模型部署元数据和模型工件一同被删除。
C. 模型的 HTTP 端点变得不可用,但元数据被保留。
D. 模型保持活跃但停止接受新的推理请求。

题干含义:
题目要求确定当 OCI 数据科学中的模型部署被停用时会发生的情况,重点考查对此过程的理解。

选项分析

  1. A: 理解错误,停用不会删除模型,模型数据仍存在。
  2. B: 停用时元数据不会被删除,数据仍可用于后续操作。
  3. C: 模型的 HTTP 端点变得不可用,意味着外部访问和新请求被拒绝,但所有相关的元数据和模型信息仍然被保留,以确保可以随时重新激活和部署。(正确答案
  4. D: 同样在逻辑上不正确,停用后模型不应保持活跃。

相关知识点总结

  • 停用模型部署时,通常不会删除已有数据和元数据,确保以后可随时恢复或参考。
  • HTTP 端点不可用意为无法外部提供服务或做出响应。
  • 为了管理成本及资源,停用策略常用于暂时不需要的模型部署。

Q66

A user wants to fetch data from an Autonomous Database in OCI without using a database wallet. What must they do?

A. Provide the hostname and port number in the connection_parameters dictionary.
B. Use ads.read_sql without any additional parameters.
C. Enable API authentication in the database console.
D. Use an HTTP request to retrieve database records.

正确答案:A

中文翻译题目和选项

一个用户想在 OCI 中从一个自主数据库获取数据,而不使用数据库钱包。他们需要怎么做?

A. 在 connection_parameters 字典中提供主机名和端口号。
B. 使用 ads.read_sql 而不需要任何其他参数。
C. 在数据库控制台中启用 API 认证。
D. 使用 HTTP 请求来检索数据库记录。

题干含义:
题目要求了解在不使用数据库钱包的情况下,从OCI自主数据库中获取数据的方式。

选项分析

  1. A: 为了访问数据库,通常需要在连接参数中提供详细信息如主机名和端口号。(正确答案
  2. B: 直接使用 ads.read_sql 不提供额外参数是不完整的,连接需要其他信息。
  3. C: 启用API认证常用于不同的数据库访问策略,但这不是基于参数而是策略设置。
  4. D: HTTP 请求不为数据库操作的标准解决方案。

相关知识点总结

  • OCI 自主数据库提供了多种连接方式,包括 JDBC 和数据库钱包等。
  • 当不使用数据库钱包时,需要手动配置连接参数,包括主机名和端口号的配置。
  • API 认证常用于应用访问控制而非数据库直接连接。

Q67

Which type of data is NOT available in Oracle Open Data?

A. Geospatial data from satellite systems
B. Protein sequences and genomic data
C. Financial transaction data
D. Annotated text files

正确答案:C

中文翻译题目和选项

哪种类型的数据在 Oracle Open Data中不可用?

A. 来自卫星系统的地理空间数据
B. 蛋白质序列和基因组数据
C. 财务交易数据
D. 带注释的文本文件

题干含义:
题目要求识别在 Oracle 开放数据集平台中不可用的数据类型。

选项分析

  1. A: 卫星系统地理空间数据通常在开放数据集中可获得,是对环境信息等进行分析的重要数据源。
  2. B: 基因组和蛋白质序列数据广泛用于科学研究,因此通常开放数据集会收集使用。
  3. C: 财务交易数据涉及隐私和安全问题,不会在公共的开放数据集中提供。(正确答案
  4. D: 经过标注的文本文件在开放数据集里许多语言任务和研究中被使用。

相关知识点总结

  • 开放数据集通常提供自然科学、社会科学中非敏感的数据,协助研究和分析用途。
  • 隐私和安全数据如财务信息因涉及个人、机构机密一般不会被包括在公开数据集。

Q68

Which statement best describes Oracle Cloud Infrastructure Data Science Jobs?

A. Jobs lets you define and run repeatable tasks on fully-managed infrastructure.
B. Jobs lets you define and run repeatable tasks on customer-managed infrastructure.
C. Jobs lets you define and run all Oracle Cloud DevOps workloads.
D. Jobs lets you define and run repeatable tasks on fully-managed, third-party cloud infrastructure.

正确答案:A

中文翻译题目和选项

哪个选项最能描述 Oracle 云基础设施数据科学作业?

A. 作业允许您在完全托管的基础设施上定义并运行可重复的任务。
B. 作业允许您在客户托管的基础设施上定义并运行可重复的任务。
C. 作业允许您定义并运行所有的 Oracle 云开发运维工作负载。
D. 作业允许您在完全托管的第三方云基础设施上定义并运行可重复的任务。

题干含义:
题目要求选择最能描述 Oracle 云基础设施数据科学作业的选项,正确理解其使用环境和特点。

选项分析

  1. A: 是描述 Oracle 云数据科学作业的正确方式,Oracle 提供的托管基础设施负责具体的基础管理,以便用户专注于任务定义。(正确答案
  2. B: Oracle 云的优势在于其托管服务,客户不负责基础设施。
  3. C: 选项不准确,作业主要用于数据科学而非 DevOps。
  4. D: 虽为托管服务,基础设施非第三方云。

相关知识点总结

  • Oracle 云基础设施的数据科学组件是专门为了简化数据任务的生命周期,提供管理、轻松部署及运行。
  • 完全托管基础设施减少了用户的计算与管理负担,使专注于设计和分析。
  • 涉及到任务重复性自动化时,Job服务是高效选择。

Q69

You are a data scientist using Oracle AutoML to produce a model and you are evaluating the score metric for the model.
Which two prevailing metrics would you use for evaluating the multiclass classification model?

A. R-squared
B. Mean squared error
C. Recall
D. F1 score
E. Explained variance score

正确答案:CD

中文翻译题目和选项

您是一名数据科学家,使用 Oracle AutoML 生成一个模型,并且正在评估该模型的评分指标。
在评估多类分类模型时,您将使用哪两个主要的指标?

A. R平方
B. 均方误差
C. 召回率
D. F1分数
E. 解释方差分数

题干含义:
题目要求选出用于评估多类分类模型的两个主要指标。

选项分析

  1. A: R平方主要用于回归模型,不适用于分类问题。
  2. B: 均方误差是回归任务的指标,不适用于分类。
  3. C: 召回率用于分类模型,评估正确识别出的实际正例的比例。(正确答案
  4. D: F1分数是分类任务的综合指标,结合精度和召回率,适用于类不平衡问题。(正确答案
  5. E: 解释方差分数用于回归并不应用于分类模型。

相关知识点总结

  • 召回率(Recall)适用于评估分类模型中正样本的识别。
  • F1分数是分类模型中更全面的评价指标,适用于涉及多类分类。
  • 回归指标如R平方和均方误差并不适用于分类模型。
  • 多类分类任务通常需要结合多个评估指标以获得全面的模型表现。

Q70

A company has trained a machine learning model and wants to fine-tune it by experimenting with hyperparameter values based on prior experience.
What approach should they take?

A. Use the built-in perfunctory search strategy.
B. Apply the detailed search space for broader tuning.
C. Define a custom search space with specific hyperparameter values.
D. Skip hyperparameter tuning altogether.

正确答案:C

中文翻译题目和选项

一家公司已经训练了一种机器学习模型,并希望通过根据之前的经验实验超参数值来进行微调。他们应该采取什么方法?

A. 使用内置的敷衍搜索策略。
B. 应用详细的搜索空间进行更广泛的调整。
C. 定义一个具有特定超参数值的自定义搜索空间。
D. 完全跳过超参数调优。

题干含义:
题目询问在希望基于先前经验来微调机器学习模型的超参数时,公司应采用的策略。

选项分析

  1. A: "perfunctory" 暗示该策略不够深入,不是微调的最佳方式。
  2. B: 虽然详细搜索有利于广泛调整,但初步经验常用于更聚焦的优化。
  3. C: 定义特定的自定义搜索空间能有效利用公司已有的经验,集中在最有可能提高性能的参数区域。(正确答案
  4. D: 跳过调优不符合继续优化模型的需求。

相关知识点总结

  • 超参数调优允许模型在不同参数组合下找到性能最佳值,以提高模型的精度和效率。
  • 自定义搜索空间结合先验经验,能减少计算资源使用和时间。
  • 常用的调优方法包括网格搜索随机搜索、和贝叶斯优化等。

Q71

Which correlation method is used to measure the relationship between two categorical variables in ADS?

A. Pearson correlation coefficient
B. Spearman correlation coefficient
C. Cramer's V method
D. Chi-square test

正确答案:C

中文翻译题目和选项

在 ADS 中,哪种相关系数用于测量两个分类变量之间的关系?

A. 皮尔逊相关系数
B. 斯皮尔曼相关系数
C. 克列梅尔 V 方法
D. 卡方检验

题干含义:
题目询问在 ADS 中测量分类变量间关系的合适相关方法。

选项分析

  1. A: 皮尔逊相关系数通常用于线性关系的度量,适合连续变量。
  2. B: 斯皮尔曼相关系数用于非线性但单调关系,同样适用于连续变量。
  3. C: 克列梅尔 V 是基于卡方检验的统计量,适用于测量分类变量之间的关联性。(正确答案
  4. D: 虽然卡方检验自身衡量关联性,但 V 方法提供了标准化值,以便解释和比较。

相关知识点总结

  • 克列梅尔 V 方法是检验两个分类变量关联性的一种标准化表示,范围在0(无关系)到1(完全关系)之间。
  • 按照数据类型选择相关系数,有助于准确评估变量间关系。
  • PearsonSpearman 适用于间隔或连续型数据,Cramer's V 适用于名义或分类数据。

Q72

A data scientist wants to develop a PySpark application iteratively using a sample of their dataset.
Which environment is recommended for this purpose?

A. OCI Compute
B. OCI Data Science notebook session
C. OCI Object Storage
D. OCI Virtual Cloud Network

正确答案:B

中文翻译题目和选项

一个数据科学家希望通过迭代使用他们数据集的样本来开发一个 PySpark 应用程序。
推荐使用哪种环境来进行此任务?

A. OCI Compute
B. OCI 数据科学笔记本会话
C. OCI 对象存储
D. OCI 虚拟云网络

题干含义:
题目要求选择最适合用于开发和迭代 PySpark 应用程序的环境。

选项分析

  1. A: OCI Compute 提供计算资源,但对于数据科学互动开发不如使用Notebook直观便利。
  2. B: OCI 数据科学笔记本会话提供了专门为数据科学和机器学习开发设计的互动环境,支持即时代码运行、可视化和实验记录,非常适合用于 PySpark 应用程序的开发。(正确答案
  3. C: OCI 对象存储主要用于数据存储和提取,不是直接的开发环境。
  4. D: OCI 虚拟云网络提供网络隔离和安全配置,不用于直接的应用开发。

相关知识点总结

  • Notebook环境如 Jupyter 支持即时报告生成、可视化以及方便的代码测试,适合数据驱动的快速迭代。
  • OCI 数据科学服务整合了多种工具和框架,支持各类数据科学任务。
  • PySpark 本身是分布式计算框架,但开发和测试阶段通常在 Notebook 环境内适合于局部数据集样本。

Q73

A data scientist updates an IAM policy to grant their notebook session access to an Object Storage bucket. However, the notebook still cannot access the bucket.

What is the likely reason?

A. The IAM policy is incorrect.
B. The resource principal token is still cached.
C. The user needs to restart the entire OCI environment.
D. Object Storage does not support access from notebooks.

正确答案:B

中文翻译题目和选项

一位数据科学家更新了一个 IAM 策略,以授予他们的笔记本会话访问对象存储桶的权限。但是,笔记本仍然无法访问该存储桶。

原因可能是什么?

A. IAM 策略不正确。
B. 资源主体令牌仍在缓存中。
C. 用户需要重启整个 OCI 环境。
D. 对象存储不支持从笔记本访问。

题干含义:
题目描述了一位数据科学家已更新其 IAM 策略,以便笔记本可以访问对象存储桶,但他们仍旧无法成功访问。从四个选项中选择最可能的原因。

选项分析

  1. A: IAM 策略不正确可能导致访问失败。但题目中提到用户已经更新了策略,因此不太可能是这个原因。

  2. B: 资源主体令牌是用来鉴权的,更新策略后,如果令牌仍在缓存中且未刷新,则可能导致无法访问。(正确答案

  3. C: 重启 OCI 环境一般不会影响到 IAM 政策的实施。因此,这不是可能原因。

  4. D: OCI 的对象存储通常支持从 notebook 访问,因此这个选项不太可能。

相关知识点总结

  • IAM(Identity and Access Management)策略用于控制资源访问权限。更新策略成功并不足以立即生效,尤其是在使用缓存令牌的情况下。
  • 资源主体认证(Resource Principal Authentication)中使用的令牌在某些情况下需要手动刷新以确保访问权限更新生效。
  • 缓存机制在自动化系统中可能会暂时存有过期信息,因此在更新系统环境或安全策略后,缓存需按需刷新。

Q74

A team wants to create a sophisticated autoscaling query that combines multiple metrics using logical operators.
Which option should they use?

A. Predefined metrics
B. Custom scaling metric with NQL expressions
C. Cooldown periods
D. Load balancer scaling

B

中文翻译题目和选项

一个团队希望创建一个复杂的自动缩放查询,使用逻辑运算符组合多个指标。
他们应该选择哪种选项?

A. 预定义指标
B. 使用 NQL 表达式的自定义缩放指标
C. 冷却时间
D. 负载均衡缩放

题干含义:
题目描述了一个团队需要使用逻辑运算符组合多个指标来创建复杂的自动缩放查询。要求从选项中选择能够实现这一功能的工具或方法。

选项分析

  1. A: 预定义指标通常很难涵盖所有复杂逻辑操作,因此不适合用于复杂的自定义场景。

  2. B: 自定义缩放指标使用 NQL(类似 SQL 的查询语言)表达式,能够灵活地组合多个指标和逻辑运算符以支持复杂查询。(正确答案

  3. C: 冷却时间是用于限制自动扩展或缩小频率的技术,与逻辑运算符的组合无直接关系。

  4. D: 负载均衡缩放主要基于流量分配和适应,不涉及多指标组合的复杂逻辑。

相关知识点总结

  • 自动缩放(Autoscaling)是根据计算需求动态调整资源的过程,以优化性能和成本。
  • NQL(Numeric Query Language)是类似 SQL 的语言,允许用户通过逻辑运算符和条件组合来自定义指标,以满足特定监控和管理需求。
  • 自定义缩放指标通过基于实时数据的复杂逻辑来驱动更智能的缩放策略。
  • 冷却时间(Cooldown Period)可防止在短时间内重复触发扩展或缩小操作,避免过度调整。

Q75

What is the primary reason for performing feature scaling in machine learning models?

A. To make the dataset smaller for faster computation
B. To bring features on to the same scale
C. To convert categorical data into numerical form
D. To automatically detect missing values and fill them with mean or median

正确答案:B

中文翻译题目和选项

在机器学习模型中进行特征缩放的主要原因是什么?

A. 使数据集变小以加快计算速度
B. 使特征处于相同的尺度
C. 将分类数据转换为数字形式
D. 自动检测缺失值并用均值或中位数填充

题干含义:
题目要求找出在机器学习中进行特征缩放的主要原因,目的是为了改善模型性能或处理数据的特定需求。

选项分析

  1. A: 缩小数据集不是特征缩放的目的,而且缩放不会减少数据量。

  2. B: 特征缩放的主要目的是使不同尺度的特征数据标准化,以确保各特征对模型的影响平衡,提升模型准确性。(正确答案

  3. C: 分类数据转换为数字形式通常通过编码方法实现,而非特征缩放。

  4. D: 填补缺失值涉及到数据预处理而不是特征缩放。

相关知识点总结

  • 特征缩放(Feature Scaling)是数据预处理的一部分,通过调整不同特征的值到一个共同尺度,确保特征对模型有均衡影响。
  • 标准化(Normalization)归一化(Min-Max Scaling)是常见的缩放方法,标准化将数据转换为 z-score,而归一化将数据调整到特定范围(如[0, 1])。
  • 特征缩放能够帮助算法更快收敛,提高模型性能,尤其是在涉及梯度下降的优化问题中。

Q77

A bike sharing platform has collected user commute data for the past three years. For increasing the profitability and making useful inferences, a machine learning model needs to be built from the accumulated data.
Which option has the correct order of the required machine learning tasks for building a model?

A. Data Access, Data Exploration, Feature Engineering, Feature Exploration, Modeling
B. Data Access, Data Exploration, Feature Exploration, Feature Engineering, Modeling
C. Data Access, Feature Exploration, Data Exploration, Feature Engineering, Modeling
D. Data Access, Feature Exploration, Feature Engineering, Data Exploration, Modeling

答案:B

中文翻译题目和选项

一家共享单车平台已经收集了过去三年的用户通勤数据。为了提高盈利能力和实现有用的推断,需要从积累的数据中建立一个机器学习模型。
哪个选项对应构建模型所需的机器学习任务的正确顺序?

A. 数据访问,数据探索,特征工程,特征探索,建模
B. 数据访问,数据探索,特征探索,特征工程,建模
C. 数据访问,特征探索,数据探索,特征工程,建模
D. 数据访问,特征探索,特征工程,数据探索,建模

题干含义:
题目要求确定构建机器学习模型所需任务的正确顺序,涉及数据访问、探索、特征探索和工程,以及最后的建模。该顺序必须合理,以确保从数据提取有用信息并创建性能良好的模型。

选项分析

  • A: 两次探索有些冗余,特征工程应在特征探索之后。
  • B: 按正确顺序进行数据访问,数据探索,特征探索,特征工程和建模。(正确答案
  • C: 特征探索不应在数据探索之前,而是先理解数据再提炼特征。
  • D: 数据探索在特征工程之后不符合逻辑顺序,应在其之前。

相关知识点总结

  • 数据访问 首先确保能正确且完整获取数据,规划之后步骤。
  • 数据探索 是初步理解数据,找出趋势或特征,进入分析每个字段或维度。
  • 特征探索 接着在更多深入分析中找出关键变量以决定模型性能。
  • 特征工程 涉及数据转换以确保适合建模,规范化、标准化、处理缺失值等。
  • 建模 包括选择和训练算法,以便做出准确预测或分类。
  • 顺序重要,影响最终模型的质量、性能与可靠性。

Q78

Which statement is incorrect regarding the benefits of autoscaling for model deployment in Oracle Data Science?

A. Autoscaling dynamically adjusts compute resources based on real-time demand, ensuring efficient handling of varying loads.
B. By using autoscaling, the cost of deployment remains constant irrespective of resource utilization.
C. Autoscaling, in conjunction with load balancers, enhances availability by rerouting traffic to healthy instances in case of instance failure.
D. Users can set customizable triggers for autoscaling using MQL expressions to tailor the scaling behavior according to specific needs.

答案:B

中文翻译题目和选项

关于 Oracle Data Science 中模型部署自动缩放的好处,哪条陈述是不正确的?

A. 自动缩放根据实时需求动态调整计算资源,确保高效处理不同负载。
B. 使用自动缩放,部署成本在资源利用率不变的情况下保持不变。
C. 自动缩放与负载均衡器结合使用,通过在实例故障时将流量重定向到健康的实例来增强可用性。
D. 用户可以使用 MQL 表达式设置可定制的触发器,以根据特定需求调整缩放行为。

题干含义:
题目要求找出关于 Oracle Data Science 中自动缩放优点的不正确陈述,需理解自动缩放如何优化资源配置及管理成本。

选项分析

  • A: 描述了自动缩放的主要功能,能够根据负载需求调整计算资源,是真实表述。
  • B: 错误描述,自动缩放换算成本通常与资源使用率有关,不能保持固定。
  • C: 负载均衡器和自动缩放协结合确实能够增加系统的冗余度,提高故障时的可用性。
  • D: 提到的 MQL 表达式用法是合理的,可以为自动缩放配置个性化调整。

相关知识点总结

  • 自动缩放 是指自动调整计算资源以适应变化的负载,通常适用于云服务平台以提高资源利用效率并降低成本。
  • 成本控制 通常由于按需变化的资源使用,成本变化是基础,不会不变。
  • 负载均衡 与自动缩放相结合常用于分配请求,确保高可用性和有效处理突发流量。
  • MQL 表达式 可用于设置尽可能多的自定义逻辑,以控制何时和如何进行缩放。

Q79

You are running a pipeline in OCI Data Science Service and want to override some of the pipeline's default settings. Which statement is true about overriding pipeline defaults?

A. Pipeline defaults cannot be overridden once the pipeline has been created.
B. Pipeline defaults can be overridden only during pipeline creation.
C. Pipeline defaults can be overridden before starting the pipeline execution.
D. Pipeline defaults can be overridden only by an administrator.

答案:C

中文翻译题目和选项

您正在 OCI Data Science Service 中运行一个管道,并想要覆盖一些管道的默认设置。关于覆盖管道默认设置,哪个陈述是正确的?

A. 管道默认值在管道创建后不能覆盖。
B. 管道默认值只能在创建管道期间覆盖。
C. 管道默认值可以在开始管道执行之前覆盖。
D. 管道默认值只能由管理员覆盖。

题干含义:
题目要求了解在 OCI Data Science Service 中如何以及何时能够覆盖管道默认设置的问题。

选项分析

  • A: 错误表述,管道创建后有可能进行修改。
  • B: 仅指创建期间操作,局限性太大,不准确。
  • C: 表示在实际执行管道任务前能够更改此类设置,上述时间点是一个常见合理阶段。(正确答案
  • D: 限定只能由管理员更改,忽略了采用用户权限下进行个性化设置可能性。

相关知识点总结

  • 管道默认值 通常涉及资源分配、参数设置、逻辑流。这些设置对于优化管道运行至关重要。
  • 在执行前更改 是合理的,允许调整以适应最新的数据或业务需求。
  • 权限控制 务必遵从服务的具体配置要求,用户权限足够时,可施行个体设置更改。
  • OCI Data Science Service 中允许灵活配置任务,确保适应性以满足不断变化的需求。在策略上,只有当条件改变涉及服务安全性或稳定性时,才限制特定人员操作。

Q80

What model parameter value are you most likely to use if you are not sure of your selection while configuring the Forecasting operator?

A. arima
B. prophet
C. auto
D. autots

答案:C

中文翻译题目和选项

在配置预测操作符时,如果您不确定选择哪个模型参数值,您最可能使用哪个选项?

A. arima
B. prophet
C. auto
D. autots

题干含义:
问题要求找到在不确定选择时,最保险的模型参数设置值,以确保预测操作者配置合理并保持灵活性。

选项分析

  • A: ARIMA 是一种具体的时间序列预测模型,需对数据及趋势有较高了解。
  • B: Prophet 是由 Facebook 开发的预测模型,适合周期性变化但不是默认选择。
  • C: Auto 是通常用于在多种模型间自动选择最佳参数或模式的选项,适合不确定时使用。(正确答案
  • D: AutoTS 是另一种自动生成时间序列的工具,但具体实现较上面选项不常见。

相关知识点总结

  • 自动选择功能 使用特定参数进行模型初始化,高效在不确定时进行预测,通常能节省时间并提高准确性。
  • 模型对比:
    • ARIMA: 高度具体化,适用于补偿趋势和季节性变化,但需专业配置。
    • Prophet: 适合长周期变化优先,具有较好的灵活性,但初始需更多了解。
    • Auto 使用能提供灵活性,不需深入手动调整模型;适合初始阶段或数据复杂时简单启动。
  • 选项"Auto"是预设条件建议之一,有助于动态适应多种数据模式,提高模型适用性。因此建议在自行选择不确定时采用。

Q81

What model parameter value are you most likely to use if you are not sure of your selection while configuring the Forecasting operator?

A. arima
B. prophet
C. auto
D. autots

答案:C

中文翻译题目和选项

在配置预测操作符时,如果您不确定选择哪个模型参数值,您最可能使用哪个选项?

A. arima
B. prophet
C. auto
D. autots

题干含义:
问题要求找到在不确定选择时,最保险的模型参数设置值,以确保预测操作者配置合理并保持灵活性。

选项分析

  • A: ARIMA 是一种具体的时间序列预测模型,需对数据及趋势有较高了解。
  • B: Prophet 是由 Facebook 开发的预测模型,适合周期性变化但不是默认选择。
  • C: Auto 是通常用于在多种模型间自动选择最佳参数或模式的选项,适合不确定时使用。(正确答案
  • D: AutoTS 是另一种自动生成时间序列的工具,但具体实现较上面选项不常见。

相关知识点总结

  • 自动选择功能 使用特定参数进行模型初始化,高效在不确定时进行预测,通常能节省时间并提高准确性。
  • 模型对比:
    • ARIMA: 高度具体化,适用于补偿趋势和季节性变化,但需专业配置。
    • Prophet: 适合长周期变化优先,具有较好的灵活性,但初始需更多了解。
    • Auto 使用能提供灵活性,不需深入手动调整模型;适合初始阶段或数据复杂时简单启动。
  • 选项"Auto"是预设条件建议之一,有助于动态适应多种数据模式,提高模型适用性。因此建议在自行选择不确定时采用。

Q82

You are a data scientist working on census dataset. You have decided to use Oracle AutoML Pipeline for automating your machine learning task and want to ensure that two of the features ("Age" and "Education") are part of the final model that the AutoML creates.
To ensure these features are not dropped during the feature selection phase, what would be the best way to define the min_features argument in your code?

A. 0 < min_features <= 2
B. min_features = ['Age', 'Education']
C. 0 < min_features <= 0.9
D. min_features = 'Age' && min_features = 'Education'

答案:B

中文翻译题目和选项

您是一名数据科学家,正在研究人口普查数据集。您决定使用 Oracle AutoML 管道自动化您的机器学习任务,并希望确保“Age”和“Education”这两个特征是 AutoML 创建的最终模型的一部分。
为了确保这些特征不在特征选择阶段被丢弃,在代码中定义 min_features 参数的最佳方式是什么?

A. 0 < min_features <= 2
B. min_features = ['Age', 'Education']
C. 0 < min_features <= 0.9
D. min_features = 'Age' && min_features = 'Education'

题干含义:
问题要求确定在使用 Oracle AutoML 时,如何通过设置 min_features 参数以保障特定特征不会在特征选择阶段被忽视。

选项分析

  • A: 使用数值来设置 min_features 并不能具体指明特定特征,限制仅为2的范围不足以保留命名特征。
  • B: 设置为 ['Age', 'Education'] 直接指明非丢弃的特征,具备精确性。(正确答案
  • C: 使用比率范围(0.9)控制特征数,并不适合应用于指定保持具体特征。
  • D: 错误语法用&&连接个体特征设置不能成立,也不符逻辑。

相关知识点总结

  • Oracle AutoML 提供一系列自动化工具简化并加速机器学习建模流程。
  • 确保关键特征在自动化流程中不被遗弃,需在特征选择阶段明确标识,如此可提高最终模型的代表性与准确性。
  • min_features 参数允许指定直接保存特定特征,尤其是数据集受限或特征贡献度已知的情况下。
  • 选择标识符应确保代码语法正确性,同时用方格式,如[特征1, 特征2],示例码能直观正确体现需求。

Q83

Which is NOT a supported encryption algorithm in OCI Vault?

A. AES (Advanced Encryption Standard)
B. RSA (Rivest-Shamir-Adleman)
C. ECDSA (Elliptic Curve Digital Signature Algorithm)
D. SHA-256 (Secure Hash Algorithm 256-bit)

答案:D

中文翻译题目和选项

OCI Vault 中不支持哪种加密算法?

A. AES(高级加密标准)
B. RSA(Rivest-Shamir-Adleman)
C. ECDSA(椭圆曲线数字签名算法)
D. SHA-256(安全哈希算法256位)

题干含义:
问题让确定哪种加密算法不被 OCI Vault 直接用于加密支持,而通常对其功能有所了解,确定此种选项。

选项分析

  • A: AES 是一种广泛应用的加密标准,主要用于对称加密,受 OCI Vault 支持。
  • B: RSA 是一个常用的非对称加密系统,广泛应用,并由 OCI Vault 兼容。
  • C: ECDSA 用于数字签名,与椭圆曲线非对称加密相关,受支持以加密证书。
  • D: SHA-256 是哈希算法,侧重数据完整性检测而非加密,不作为加密算法。(正确答案

相关知识点总结

  • 加密算法 旨在确保数据保密性,通过对称或非对称加密实现访问认证。
  • 哈希算法,如 SHA-256,用来验证数据完整性而非数据加密本身。
  • OCI Vault 是 Oracle 云服务提供的一体化安全解决方案,支持众多常规及高级加密技术,以保证数据在传输和存储中的安全。
  • 通常需明确加密与完整性验证功能,避免混淆其用途,这是确保系统安全政策与标准的基础。

Q84

What is the final step after running the Oracle Resource Manager stack for Data Science configuration?

A. Deleting the default compartment
B. Modifying the Terraform script in GitHub
C. Adding users to the automatically created user group
D. Creating an additional stack for security configuration

答案:C

中文翻译题目和选项

在运行 Oracle Resource Manager 堆栈进行数据科学配置后,最后一步是什么?

A. 删除默认隔间
B. 修改 GitHub 中的 Terraform 脚本
C. 将用户添加到自动创建的用户组
D. 创建一个额外的堆栈以进行安全配置

题干含义:
题目询问在完成 Oracle Resource Manager 堆栈配置数据科学后,应该执行的最后一步是什么。

选项分析

  • A: 删除隔间不作为最后一步,尤其是仍然需要隔间进行后续操作时。
  • B: 修改代码通常为调优过程中的一部分,而不是配置完毕后的步骤。
  • C: 将用户添加至自动创建的用户组是给予访问权限,使得数据科学团队或成员能有效使用资源。(正确答案
  • D: 额外的安全配置可在该步骤进行,但通常是节中部分而非最终主要任务。

相关知识点总结

  • Oracle Resource Manager 是用于自动化和管理云基础设施的一种工具,使配置和资源管理更流畅。
  • 用户组管理 确保适当的用户权限,能够访问刚配置好的资源,是确保相关人员能直接基于新设置展开工作的关键步骤。
  • 在云计算环境中,用户和权限管理是维护资源有效和安全使用的重要方面。
  • 配置和部署后的用户接入管理为训练与部署提供直接支持,确保所需资源适时有效利用。

Q85

You want to create a user group for a team of external data science consultants. The consultants should only have the ability to view data science resource details but not the ability to create, delete, or update data science resources.
What verb should you write in the policy?

A. Read
B. Use
C. Inspect
D. Manage

答案:A

中文翻译题目和选项

您希望为一组外部数据科学顾问创建一个用户组。这些顾问应仅有能力查看数据科学资源详情,而不能创建、删除或更新这些资源。
在政策中您应写哪个动词?

A. 读取(Read)
B. 使用(Use)
C. 检查(Inspect)
D. 管理(Manage)

题干含义:
题目要求为一组外部顾问设置适当权限,使他们仅能访问系统对数据进行阅读而非修改。

选项分析

  • A: Read 提供查看权限,使用户能看到和读取数据资源的详细信息,而不进行更改。(正确答案
  • B: Use 通常意味着执行操作或运行实例,超过简单阅读的权限。
  • C: Inspect 含义模糊,在一些场合下允许一定程度的数据访问。
  • D: Manage 涉及完全控制,包括创建与删除操作,不符合题目中限制条件。

相关知识点总结

  • 权限管理 中,"Read" 是最基础的查看操作,保证数据安全时仍允许信息获取。
  • 为顾问或外部人员分配只读权限有助于保护敏感信息,同时使合作更加高效。
  • 配置权限时需明确区分各角色的操作范围,合理控制以确保系统安全与合作便利。
  • User Group Policies 在云和数据管理中用于调整人员交互,确保使用权限明确界定以免无意操作。

Q86

A team of data scientists is working on multiple machine learning models for fraud detection. They want to collaborate in a structured manner.
What option is available to create a Data Science Project in OCI?

A. Can be created only through the OCI Console UI
B. Can be created only through the ADS SDK
C. Can be created through either the OCI Console UI or the ADS SDK
D. Can be created using a command-line interface (CLI) only

答案:C

中文翻译题目和选项

数据科学家团队正在为欺诈检测开发多个机器学习模型。他们希望以一种结构化的方式进行协作。
在 OCI 中创建数据科学项目有哪些选项?

A. 只能通过 OCI 控制台 UI 创建
B. 只能通过 ADS SDK 创建
C. 可以通过 OCI 控制台 UI 或 ADS SDK 创建
D. 可以仅使用命令行界面(CLI)创建

题干含义:

题目要求确认在 Oracle 云环境中有哪些方式可以创建和管理数据科学项目,确保协作性。

选项分析

  • A: 仅通过控制台 UI 限制了创建途径。
  • B: 仅通过 ADS SDK 不能尽显灵活性。
  • C: 通过 OCI Console UI 或 ADS SDK 两种方式均可,该选项可灵活选择合作的工具。(正确答案
  • D: 没有提到命令行界面单独作用。

相关知识点总结

  • Oracle Cloud Infrastructure (OCI) 提供多种工具和接口支持项目管理。
  • OCI Console UI 是用户界面,易于操作,适合可视化项目建立。
  • ADS SDK 能通过代码形式自动化处理,有效提升复杂项目的管理效率。
  • 灵活支持多接口确保团队合作便利,并可选择适合团队需求的方法。

Q87

You have just started as a data scientist at a healthcare company. You have been asked to analyze and improve a deep neural network model that was built based on the electrocardiogram records of patients. There are no details about the model framework that was built.
What would be the best way to find more details about the machine learning models inside model catalog?

A. Refer to the code inside the model.
B. Check for metadata tags.
C. Check for Model Taxonomy details.
D. Check for Provenance details.

答案:C

中文翻译题目和选项

您刚开始在一家医疗公司担任数据科学家。您被要求分析和改进基于患者心电图记录构建的深度神经网络模型。关于构建的模型框架没有详细信息。
找到有关模型目录中的机器学习模型详细信息的最佳方式是什么?

A. 参考模型中的代码。
B. 检查元数据标签。
C. 检查模型分类细节。
D. 检查溯源详细信息。

选项分析

  • A: 访问代码需要已授权或熟悉模型细节。
  • B: 元数据标签提供有限信息,限制了全面了解。
  • C: 模型分类细节能让您系统化理解模型结构与功能关系及分类参数。(正确答案
  • D: 溯源仅限于源文件跟踪,细节有限。

相关知识点总结

  • Model Taxonomy 提供系统化的信息结构,使模型的分类和标记直观化。
  • 医疗数据分析时,清晰了解模型结构关键以便进行安全修改或提升。

Q88

A data scientist is working on a fraud detection model. They need to store the trained model so that it can be versioned, tracked, and later deployed without modification.
Which feature should they use?

A. Model Deployment
B. Model Catalog
C. Model Explainability
D. Hyperparameter Tuning

答案:B

中文翻译题目和选项

数据科学家正在开发欺诈检测模型。他们需要存储训练模型,以便它可以进行版本控制、跟踪,并可以在今后部署而不需修改。
他们应该使用哪个功能?

A. 模型部署
B. 模型目录
C. 模型可解释性
D. 超参数调整

选项分析

  • A: 模型部署着重实际投放运行,缺乏版本管理和跟踪。
  • B: 模型目录能够进行系统存储和版本管理,适合追踪和稳定部署。(正确答案
  • C: 模型可解释性提供信息而非存储管理。
  • D: 调参用于模型优化,而非版本管理。

相关知识点总结

  • Model Catalog 是有效管理模型的方法,允许版本控制和追踪发展。
  • 在确保模型准确性时,关键在于存储与操控,且必须支持未来扩展和理解。

Q89

A company is running a job in OCI Data Science Jobs and wants to ensure that the infrastructure is deprovisioned immediately after the job completes to avoid unnecessary costs.

What happens when the job ends?

A. The infrastructure remains active for 30 days.

B. The infrastructure is automatically deprovisioned.

C. The job artifact is deleted.

D. The compute shape is reset to default.

答案:B

中文翻译题目和选项

一家公司在运行 OCI Data Science Jobs 中的任务,并希望在任务完成后立即释放基础设施,以避免不必要的成本。

任务结束时会发生什么?

A. 基础设施在 30 天内保持激活状态。

B. 基础设施被自动释放。

C. 任务工件被删除。

D. 计算形状重置为默认值。

题干含义:

这道题询问的是在 OCI Data Science Jobs 中,当一个任务完成后会发生什么。公司希望在任务完成后,基础设施能够立即被释放,以避免不必要的成本。

选项分析

  1. A: 基础设施保持激活状态30天,这与题意不符,公司希望立即释放。(不正确)
  2. B: 基础设施被自动释放,这与题意相符,满足公司希望立即释放资源的需求。(正确答案
  3. C: 任务工件被删除,题干并未提及对工件的操作,选项不相关。(不正确)
  4. D: 计算形状重置为默认值,题干关注的是基础设施是否释放,而非计算形状设置,选项无关。(不正确)

相关知识点总结

  • OCI (Oracle Cloud Infrastructure) Data Science Jobs 提供了一种在云端运行数据科学工作的方式。
  • 在使用云服务时,自动释放不再需要的资源是一种节约成本的方式,以避免未使用的基础设施继续产生费用。
  • 在任务完成后,通过自动化流程来释放资源通常是公司节约云成本的策略之一。
  • 确保任务结束时的资源管理可以通过设置自动脚本或使用服务提供商的自动化选项来实现,从而控制成本。

Q90

What is the key difference between PDP (Partial Dependence Plot) and ICE (Individual Conditional Expectation) in ADS?

A. PDP provides feature-level insights, while ICE provides sample-level insights.

B. PDP works only for categorical features, while ICE works only for continuous features.

C. PDP is a supervised learning technique, while ICE is used for unsupervised learning.

D. PDP is used for classification, while ICE is only used for regression.

答案:A

中文翻译题目和选项

在 ADS 中,PDP(部分依赖图)和 ICE(个体条件期望)的关键区别是什么?

A. PDP 提供特征级别的洞见,而 ICE 提供样本级别的洞见。

B. PDP 仅适用于分类特征,而 ICE 仅适用于连续特征。

C. PDP 是一种监督学习技术,而 ICE 用于无监督学习。

D. PDP 用于分类,而 ICE 仅用于回归。

选项分析

  1. A: PDP 提供的是在特定特征改变时整体模型输出变化的概况,而 ICE 则追踪每个样本在个体水平上的变化,提供更细致的洞见。(正确答案
  2. B: 选项表示 PDP 仅用于分类特征,这不完全正确,因为 PDP 可以用于任何特征。
  3. C: 这两个技术都用于可解释性,不涉及监督与否。
  4. D: PDP 和 ICE 都可以用于分类与回归,选项限制不准确。

相关知识点总结

  • Partial Dependence Plot (PDP) 显示某个特征的变化对模型预测结果的影响,能够提供特征与响应变量之间关系的全局视图。
  • Individual Conditional Expectation (ICE) 曲线是 PDP 的个体版本,显示某个样本对不同特征值的反应情况,提供样本级别的动态分析。
  • PDP 和 ICE 都是用于模型可解释性分析的方法,帮助数据科学家了解特征对预测的影响。
  • PDP 提供的是一个全局平均视图,而 ICE 则显示个体差异,适合发现模型在不同样本上行为的变化。

Q91

Where are the training job outputs stored after fine-tuning is completed?

A. In the local storage of the training instance

B. In an OCI Object Storage bucket

C. Directly in the OCI Model Catalog

D. In a temporary cache that is cleared after job completion

答案:B

中文翻译题目和选项

模型微调任务完成后,训练任务的输出存储在哪里?

A. 在训练实例的本地存储

B. 在 OCI 对象存储桶中

C. 直接在 OCI 模型目录中

D. 在作业完成后清空的临时缓存中

选项分析

  1. A: 训练实例的本地存储仅用于作业执行期间,数据通常不会长久保留。
  2. B: 微调输出通常存储在 OCI 对象存储桶中,确保持久性和后续访问。(正确答案
  3. C: OCI 模型目录是用来管理和编排模型,通常不会直接存储训练输出。
  4. D: 临时缓存用于加快处理,但内容会在作业完成后被清除,不用于长期存储。

相关知识点总结

  • OCI (Oracle Cloud Infrastructure) Object Storage 提供持久化存储,适合存储训练模型等长期需要的数据。
  • 在云计算环境中,将数据存储到对象存储而非本地,可以使数据更为安全且易于共享。
  • 对象存储是云计算中常用的存储解决方案,允许用户存储大规模的数据并提供数据冗余和高可用性。
  • 通常,训练输出会存储到一个可长期访问的存储位置,以便后需分析和进一步使用。

Q92

When deploying an RAG application to OCI Data Science, what is the correct sequence of steps you would need to follow?

  1. Load documents.
  2. Split documents.
  3. Embed documents.
  4. Create vector database from documents.
  5. Create retriever.

中文翻译题目和选项

在将 RAG 应用程序部署到 OCI 数据科学时,需要遵循的正确步骤顺序是什么?

  1. 加载文档。
  2. 分割文档。
  3. 嵌入文档。
  4. 从文档创建向量数据库。
  5. 创建检索器。

题干含义:
题目列出了将 RAG(检索-生成增强)应用程序部署到 Oracle Cloud Infrastructure 数据科学中应遵循的步骤,并要求我们确认这个过程的正确步骤顺序。

步骤顺序解析

  1. 加载文档:第一个步骤是将需要处理的文档加载到系统中。这些文档是信息来源,需要进行后续处理。
  2. 分割文档:将大块内容或篇幅较长的文档分割成更小的节,以便于管理和处理。
  3. 嵌入文档:使用文档嵌入技术将文本数据转换为向量形式,以便可以执行高效的语义搜索。
  4. 从文档创建向量数据库:将所有嵌入后的文档向量存储在一个数据库中,这使检索和分析过程更容易且更高效。
  5. 创建检索器:最后,建立一个检索器以便能根据用户查询从向量数据库中获取相关文档。

相关知识点总结

  • RAG (Retrieve and Generate) 是一种结合信息检索和生成的应用,常被用于问答系统和文档分析。
  • 在构建 RAG 系统时,处理流程的认真设计能够显著影响系统的响应速度和准确性。
  • 向量数据库在语义理解和高效检索方面起着至关重要的作用。
  • 分割文档能够提升系统的灵活性和可扩展性,使得处理更为细致和具体。
  • 嵌入技术作为现代 NLP(自然语言处理)的一部分,为结构化搜索和文档处理提供了基础。

Q93

由于选项太长了 所有这里只有正确选项

When deploying an RAG application to OCI Data Science, what is the correct sequence of steps you would need to follow?

A.

  1. Load documents.
  2. Split documents.
  3. Embed documents.
  4. Create vector database from documents.
  5. Create retriever.
  6. Create chain.
  7. Create model.
  8. Prepare model artifacts.
  9. Verify model.
  10. Save model.
  11. Deploy model.

正确答案: A.

中文翻译题目

在将RAG应用程序部署到OCI数据科学时,需要遵循哪个顺序的步骤?

A.

  1. 加载文档。
  2. 拆分文档。
  3. 嵌入文档。
  4. 从文档创建向量数据库。
  5. 创建检索器。
  6. 创建链。
  7. 创建模型。
  8. 准备模型工件。
  9. 验证模型。
  10. 保存模型。
  11. 部署模型。

解析

题目要求我们识别用于在OCI数据科学上部署一体化RAG应用程序所需的步骤的正确顺序,基本上是一个以数据准备、模型创建及验证为核心的流程:

  • Load documents (加载文档): 开始阶段,获取目标文档。
  • Split documents (拆分文档): 对文档进行预处理和拆分,使其适合嵌入。
  • Embed documents (嵌入文档): 将文档转换成可以用于机器学习模型的嵌入格式。
  • Create vector database from documents (从文档创建向量数据库): 将嵌入结果组织为向量数据库以便快速访问。
  • Create retriever (创建检索器): 基于向量数据库,设计文档检索功能。
  • Create chain (创建链): 构建数据流,以便进行下一步的机器学习模型训练和测试。
  • Create model (创建模型): 构建用于实现RAG任务的ML模型。
  • Prepare model artifacts (准备模型工件): 准备一切与模型相关联的工件。
  • Verify model (验证模型): 确保模型的准确性和可靠性。
  • Save model (保存模型): 将已验证的模型存储以备随后部署使用。
  • Deploy model (部署模型): 将最终模型部署到运营环境中。

相关知识点总结

  • RAG模型: RAG(Retrieval-Augmented Generation)是一种结合信息检索和生成的管道,广泛用于改进回答生成的准确性。

  • OCI数据科学平台: 是一个用于构建、训练和部署机器学习模型的平台,提供了全面的工具和服务以助力数据科学家。

  • 步骤的重要性: 按顺序执行这些步骤至关重要,因为每一步都可能依赖于先前步骤的输出。尤其是在文档处理阶段,正确分类和嵌入文档是后续任务成功的基础。

Q94

Which two statements are true about Oracle Cloud Infrastructure (OCI) Open Data Service?

A. Subscribers can pay and log into Open Data to view curated data sets that are otherwise not available to the public.
B. Open Data is a dataset repository made for the people that create, use, and manipulate datasets.
C. Open Data includes text and image data repositories for AI and ML. Audio and video formats are not available.
D. Each dataset in Open Data consists of code and tooling usage examples for consumption and reproducibility.
E. A primary goal of Open Data is for users to contribute to the data repositories in order to expand the content offered.

答案:BD

中文翻译题目和选项

下列哪两条关于Oracle云基础设施(OCI)开放数据服务是正确的?

A. 订阅者可以付费并登录开放数据以查看不向公众提供的精选数据集合。
B. 开放数据是为那些创建、使用和操作数据集的人们而设计的数据集存储库。
C. 开放数据包括用于AI和ML的文本与图像数据存储库。音频和视频格式不可用。
D. 开放数据中的每个数据集都包含代码和工具使用示例,以供使用和可复制性。
E. 开放数据的主要目标是让用户向数据存储库贡献内容,以便扩展提供的内容。

题干含义:
题目要求找出关于 Oracle 云基础设施(OCI)开放数据服务的正确描述,涉及到开放数据的使用、受众及内容类型等方面的信息。

选项分析

  • A: 提到订阅者需付费查看数据集,而开放数据应是向开发人员开放的。不正确。
  • B: 正确描述开放数据作为数据集存储库被设计的目的和受众。(正确答案
  • C: 声称音频和视频格式不可用,但开放数据可能支持多种格式。不正确。
  • D: 每个数据集皆有代码和工具示例,利于使用和复制性。(正确答案
  • E: 用户贡献数据是可行性的目标,但作为主要目标不正确。

相关知识点总结

  • OCI Open Data: 是一种面向开发人员和数据科学家的数据集存储库,允许他们使用和操作各种类型的数据集。

  • 开放性: 强调数据使用的开放性,并非根据订阅或付款来获取数据。

  • 使用示例的意义: 代码和工具的使用示例帮助开发者更快地消费数据和复制成果,这是数据存储库的重要组成部分。

  • 数据类型支持: 开放数据应该局限于某一类型的数据。

  • 社区贡献: 虽然鼓励社区贡献,但主要目标或倾向不应只限于此。

这两点清晰反映了OCI开放数据服务对数据的使用及可扩展性重点,同时强调了这些数据的设计之初即考虑了代码工具的实践性。

Q95

You want to write a Python script to create a collection of different projects for your data science team. Which Oracle Cloud Infrastructure (OCI) Data Science interface would you use?

A. The OCI Software Development Kit (SDK)
B. OCI Console
C. Command line interface (CLI)
D. Mobile App

答案:A

中文翻译题目和选项

你希望编写一个Python脚本,为你的数据科学团队创建一系列不同的项目。你会使用哪个Oracle云基础设施(OCI)数据科学界面?

A. OCI软件开发工具包 (SDK)
B. OCI控制台
C. 命令行接口 (CLI)
D. 移动应用程序

选项分析

  • A: OCI软件开发工具包 (SDK) 提供API和库,使得可以通过Python脚本轻松进行自动化和编程操作。(正确答案
  • B: OCI控制台用于手动配置和管理资源,不适合编写和运行Python脚本。
  • C: 命令行接口 (CLI) 可以用于脚本化任务,但更适合系统命令和批处理,比SDK应用更繁琐。
  • D: 移动应用程序不支持编写和执行Python脚本。

相关知识点总结

  • OCI 软件开发工具包 (SDK): 是为编程接口提供的一种工具包,通过提供库和API,使开发者可以使用多种编程语言(如Python)与OCI服务进行交互。

  • Python 与 SDK 的结合: 通过使用Python和SDK的结合,数据科学团队可以自动创建和管理项目,使处理更灵活,简化重复性任务。

  • 自动化优势: 使用SDK编写Python脚本进行自动化操作,可以提升数据科学团队的效率,减少手动操作的错误风险。

选择正确的OCI界面对数据科学团队来说至关重要,因为它关系到团队能够快速并准确地处理项目需求。

Q96

You need to build a machine learning workflow that has sequential and parallel steps. You have decided to use the Oracle Cloud Infrastructure (OCI) Data Science Pipeline feature. How is Directed Acyclic Graph (DAG) having sequential and parallel steps built using Pipeline?

A. Using Pipeline Designer
B. By running a Pipeline
C. Using dependencies
D. Using environmental variables

答案:A

中文翻译题目和选项

你需要构建一个具有顺序和并行步骤的机器学习工作流,你决定使用Oracle云基础设施(OCI)数据科学管道功能。如何使用管道构建具有顺序和并行步骤的有向无环图(DAG)?

A. 使用管道设计器
B. 通过运行管道
C. 使用依赖项
D. 使用环境变量

选项分析

  • A: 使用管道设计器 (Pipeline Designer) 是构建和可视化机器学习工作流中顺序和并行步骤的工具,它允许用户设计DAG并管理其步骤间的关系。(正确答案
  • B: 通过运行管道来实现,但不涉及DAG的构建。
  • C: 使用依赖项来安排步骤,但它们只是管理步骤之间关系的一部分。
  • D: 使用环境变量管理配置,但与构建DAG无关。

相关知识点总结

  • Directed Acyclic Graph (DAG): 是一种用于表示流程中有方向且无循环的拓扑结构,特别适合于描述任务或数据流。

  • OCI 数据科学管道:一种支持数据科学工作流的功能,允许用户通过图形界面、脚本化、并行化及顺序安排机器学习任务。

  • 管道设计器 (Pipeline Designer): 是构建和管理数据科学工作流过程中设计DAG的主要工具,界面友好,适合可视化构建复杂任务依赖结构。通过直观的拖拽方式构建工作流中各个任务节点的顺序与并行关系,是实现DAG的高效途径。

在 OCI 数据科学中,使用正确的工具构建和管理机器学习工作流的层次和关系非常重要,这不仅提高了开发效率,也提升了可维护性。

Q97

You are using a git repository that is stored on GitHub to track your notebooks. You are working with another data scientist on the same project but in different notebook sessions. Which two statements are true?

A. To share your work, you commit it and push it to GitHub. Your coworker can then pull your changes on to their notebook session.
B. It is a best practice that you and your coworker should work in the same branch because you are working on the same project.
C. Once you have staged your changes, you run the git commit command to save a snapshot of the state of your code.
D. Only one of you has to clone the GitHub repo as you can share it.
E. You do not have to clone the GitHub repo as you can commit directly from the notebook session to GitHub.

答案:A, C

中文翻译题目和选项

你正在使用存储在GitHub上的git仓库来跟踪笔记本。你和另一个数据科学家在同一个项目中工作,但在不同的笔记本会话中。以下哪两项是正确的?

A. 为了分享工作,您需要提交并推送到GitHub。然后你的同事可以在他们的笔记本会话中拉取你的更改。
B. 最佳实践是您和您的同事应该在同一个分支上工作,因为您正在同一个项目上。
C. 在您暂存更改后,运行git commit命令来保存代码状态的快照。
D. 只有一个人需要克隆GitHub仓库,因为您可以共享它。
E. 您不需要克隆GitHub仓库,因为可以直接从笔记本会话提交到GitHub。

选项分析

  • A: 在GitHub上协作时,提交并推送更改,然后同事拉取这些更改是一种常见的工作流。(正确答案
  • B: 虽然在同一分支上工作简化了某些工作流,但通常建议使用不同的分支进行并行开发,然后合并更改。
  • C: git commit命令用于将暂存的更改提交到本地仓库,以创建代码状态的快照,随后还需要git push上传至远程仓库。(正确答案
  • D: 每个开发人员通常需要克隆自己的仓库副本,以便进行独立开发。
  • E: 通常需要先克隆仓库到本地环境才能进行提交。

相关知识点总结

  • 使用Git进行协作: Git是一种分布式版本控制系统,通过分支、提交和推送等操作,开发人员可以方便地协作和共享代码。

  • 最佳实践: 通常使用不同的分支进行个人开发,然后通过拉取请求或合并来集成更改,这样可以降低冲突风险并清晰管理项目历史。

  • git commit 和 git push: git commit用于将本地更改保存为一个新的快照,git push用于将本地更新发送到远程仓库。

在GitHub上进行多人协作时,理解这些基本概念和最佳实践有助于高效管理和交流代码变动。

Q98

As a data scientist, you are tasked with creating a model training job that is expected to take different hyperparameter values on every run. What is the most efficient way to set those parameters with Oracle Data Science Jobs?

A. Create a new job every time you need to run your code and pass the parameters as environment variables.
B. Create your code to expect different parameters as command line arguments, and create a new job every time you run the code.
C. Create a new job by setting the required parameters in your code, and create a new job for every code change.
D. Create your code to expect different parameters either as environment variables or as command line arguments, which are set on every job run with different values.

答案:D

中文翻译题目和选项

作为一名数据科学家,你需要创建一个模型训练任务,期望每次运行都使用不同的超参数值。使用Oracle数据科学任务最有效的参数设置方法是什么?

A. 每次运行代码时创建一个新任务,并将参数作为环境变量传递。
B. 将代码设置为接受不同的参数作为命令行参数,并在每次运行代码时创建一个新任务。
C. 设置代码中所需参数并为每次代码更改创建新任务。
D. 将代码设置为接受不同的参数作为环境变量或命令行参数,并在每次任务运行时设置不同的值。

选项分析

  • A: 每次运行时创建新任务较不高效。
  • B: 命令行参数方式是可行,但仍需创建新任务。
  • C: 每次代码更改创建新任务不够灵活且浪费资源。
  • D: 将代码设置为接受环境变量或命令行参数,并在每次任务运行时传递不同值,是最灵活和高效的方法。(正确答案

相关知识点总结

  • 环境变量和命令行参数:
    在进行模型训练时,可以通过灵活地传递参数来测试不同的超参数组合。这种方法允许数据科学家在不反复更改代码的情况下优化模型。

  • OCI 数据科学任务设置:
    在任务设置中,可配置任务接受不同的输入参数,使其适应不同的运行需求而无需创建新任务。

这种通过参数化控制任务的方式不仅节省时间和计算资源,还提高了模型的适应性和测试效率。

Q99

You have a complex Python code project that could benefit from using Data Science Jobs as it is a repeatable machine learning model training task. The project contains many subfolders and classes. What is the best way to run this project as a Job?

A. Rewrite your code so that it is a single executable Python or Bash/Shell script file.
B. ZIP the entire code project folder, upload it as a Job artifact on job creation, and set JOB_RUN_ENTRYPOINT to point to the main executable file.
C. ZIP the entire code project folder and upload it as a Job artifact on job creation. Jobs identifies the main executable file automatically.
D. ZIP the entire code project folder and upload it as a Job artifact. Jobs automatically identifies the _main_ top level where the code is run.

答案:B

中文翻译题目和选项

你有一个复杂的Python代码项目,它可以通过使用数据科学任务受益,因为它是一个可重复的机器学习模型训练任务。该项目包含许多子文件夹和类。作为一个任务运行此项目的最佳方法是什么?

A. 重写你的代码,使其为一个可执行的Python或Bash/Shell脚本文件。
B. 压缩整个代码项目文件夹,作为作业创建时的作业工件上传,并设置JOB_RUN_ENTRYPOINT指向主可执行文件。
C. 压缩整个代码项目文件夹,并作为作业工件上传,作业会自动识别主可执行文件。
D. 压缩整个代码项目文件夹并将其上传为作业工件,作业会自动识别代码运行的_main_顶层。

选项分析

  • A: 将所有代码重写为一个文件会显著增加复杂性和维护难度。
  • B: 将整个项目压缩并设置JOB_RUN_ENTRYPOINT 和上传为作业工件是最佳实践,可以直接管理复杂的项目结构。(正确答案
  • C: 自动识别可能不可靠,最好显式设置入口点。
  • D: _main_不是一个常用的或标准的识别方法。

相关知识点总结

  • 数据科学任务操作指南: 使用任务方式运行复杂项目时,设置明确的入口点有助于确保代码以预期方式运行。

  • 项目结构管理: 在项目复杂度较高时,保持原有结构并通过入口点管理运行有助于提升代码的复用性和清晰度。

选择合适的操作方式运行复杂的项目,能在保证系统可复用性的同时,提高开发和管理的效率。

Q100

You are setting up a fine-tuning job for a pre-trained model on Oracle Data Science. You obtain the pre-trained model from HuggingFace, define the training job using the ADS Python API, and specify the OCI bucket. The training script includes downloading the model and dataset. Which of the following steps will be handled automatically by the ADS during the job run?

A. Setting up the conda environment and installing additional dependencies
B. Specifying the replica and shape of instances required for the training job
C. Saving the outputs to OCI Object Storage once the training finishes
D. Fetching the source code from GitHub and checking out the specific commit

答案:A

中文翻译题目和选项

您正在为Oracle数据科学上的预训练模型设置微调作业。您从HuggingFace获取预训练模型,使用ADS Python API定义训练作业,并指定OCI存储桶。训练脚本包括下载模型和数据集。以下哪项步骤将在作业运行期间由ADS自动处理?

A. 设置conda环境并安装额外的依赖项
B. 指定训练作业所需的副本和实例形状
C. 将输出保存到OCI对象存储,训练完成后
D. 从GitHub提取源代码并检查特定提交

选项分析

  • A: 设置conda环境并安装依赖项 是ADS能够自动处理的部分,它可以配置环境以运行所需的脚本和软件包。(正确答案
  • B: 副本和实例配置通常需要在作业提交之前定义。
  • C: 输出保存通常需要在脚本中明确定义路径和保存逻辑。
  • D: 从GitHub提取代码通常需要在脚本中完成或设置适当的源配置。

相关知识点总结

  • ADS 自动化功能: ADS(Oracle Analytics and Data Science)可以自动管理环境配置,以便迅速准备好运行所需脚本,包括设置conda环境,这有助于快速原型化和实验。

  • 配置环境: 通过自动设置环境,开发者可以专注于模型开发而不必担心依赖管理问题。

了解Oracle数据科学平台的这些自动化功能可以帮助你更高效的工作,避免重复配置和手动设置系统环境。

Q101

You have received machine learning model training code, without clear information about the optimal shape to run the training. How would you proceed to identify the optimal compute shape for your model training that provides a balanced cost and processing time?

A. Start with a random compute shape and monitor the utilization metrics and time required to finish the model training. Perform model training optimizations and performance tests in advance to identify the right compute shape before running the model training as a job.
B. Start with a smaller shape and monitor the Job Run metrics and time required to complete the model training. If the compute shape is not fully utilized, tune the model parameters, and re-run the job. Repeat the process until the shape resources are fully utilized.
C. Start with the strongest compute shape Job's support and monitor the Job Run metrics and time required to complete the model training. Tune the model so that it utilizes as much compute resources as possible, even at an increased cost.
D. Start with a smaller shape and monitor the utilization metrics and time required to complete the model training. If the compute shape is fully utilized, change to compute that has more resources and re-run the job. Repeat the process until the processing time does not improve.

答案:D

中文翻译题目和选项

您已经收到了机器学习模型训练代码,但没有关于运行训练的最佳形状的明确信息。如何识别您的模型训练的最佳计算形状,以提供平衡的成本和处理时间?

A. 从随机的计算形状开始,并监控利用率指标和完成模型训练所需的时间。提前进行模型训练优化和性能测试,以识别在将模型训练作为作业运行之前的正确计算形状。
B. 从较小的形状开始,并监控作业运行指标和完成模型训练所需的时间。如果计算形状未充分利用,调整模型参数,并重新运行作业。重复此过程直到形状资源完全利用。
C. 从最强的计算形状开始作业支持,并监控作业运行指标和完成模型训练所需的时间。调整模型以尽可能利用计算资源,即使在增加成本的情况下。
D. 从较小的形状开始,并监控完成模型训练所需的利用率指标和时间。如果计算形状充分利用,则更改为具有更多资源的计算,并重新运行作业。重复此过程直到处理时间没有改善。

选项分析

  • A: 使用随机形状可能导致不可预测的结果。
  • B: 只是调整模型参数,并不直接优化计算资源利用。
  • C: 开始时使用最大资源可能导致过高的成本。
  • D: 从较小的形状开始并逐步增加资源,直到达到最佳处理时间和成本效率是最佳实践。(正确答案

相关知识点总结

  • 计算资源优化: 使用较小资源监控任务效率,并根据需求逐步提高资源配置,以达到成本和性能的最佳平衡。

  • 监控与调整: 可通过监控训练任务的资源利用率进行及时调整,以确保资源充分利用且成本不浪费。

这种逐步优化的方法不仅有助于增强系统资源的效率,还能显著减少了过度配置带来的不必要成本。

Q102

You realize that your model deployment is about to reach its utilization limit. What would you do to avoid the issue before requests start to fail?

A. Update the deployment to add more instances.
B. Reduce the load balancer bandwidth limit so that fewer requests come in.
C. Update the deployment to use a larger virtual machine (more CPUs/memory).
D. Delete the deployment.
E. Update the deployment to use fewer instances.

答案:A, C

中文翻译题目和选项

你意识到你的模型部署即将达到其利用上限。你会怎么做以避免请求开始失败?

A. 更新部署以增加更多实例。
B. 减少负载平衡器的带宽限制,以减少进入的请求数量。
C. 更新部署以使用更大的虚拟机(更多的CPU/内存)。
D. 删除部署。
E. 更新部署以使用更少的实例。

选项分析

  • A: 增加更多实例可以提高整体处理能力,是解决利用上限的直接方式。(正确答案之一
  • B: 降低带宽限制会减少服务能力,从而降低性能,不是最佳解决方案。
  • C: 使用更大虚拟机增加计算资源,适用于需更多计算能力的场景。(正确答案之一
  • D: 删除部署不是合适方法。
  • E: 减少实例只会加剧利用上限问题。

相关知识点总结

  • 利用率管理: 当服务器或服务部署接近上限时,需及时扩展资源,以避免性能下降或请求失败。

  • 实例和资源扩展: 添加更多实例或提升现有实例的计算能力(如CPU、内存),是常见扩展系统处理能力的方法。

在负载压力较大时,提前采取扩展或优化资源配置的措施,可有效避免因过载引起的服务故障。

Q103

Which approach does Oracle AutoML use to avoid the cold start problem?

A. Randomized hyperparameter tuning to generate diverse models
B. Exhaustive grid search to evaluate every possible model configuration
C. Genetic evolutionary algorithms to evolve new models dynamically
D. Meta-learning to predict algorithm performance on unseen data sets

答案:D

中文翻译题目和选项

Oracle AutoML 使用哪种方法来避免冷启动问题?

A. 通过随机超参数调优生成多样化的模型
B. 使用穷举网格搜索评估每一种可能的模型配置
C. 使用遗传进化算法动态演化新模型
D. 使用元学习预测算法在未见数据集上的性能

题干含义:
题目询问 Oracle AutoML 采用哪种技术方法来避免机器学习系统的冷启动问题,即在缺乏大量初始数据时,如何有效预测模型的性能。

选项分析

  1. A: 随机超参数调优可以帮助探索不同的模型配置,但并不能有效解决冷启动问题。
  2. B: 穷举网格搜索的时间复杂度较高,不一定解决冷启动问题。
  3. C: 遗传进化算法用于优化模型架构和参数,但不直接针对冷启动问题。
  4. D: 元学习通过学习模型的历史性能来预测在新数据集上表现,为冷启动问题提供解决方案。(正确答案

相关知识点总结

  • 冷启动问题:这是机器学习或推荐系统在初始阶段缺少足够数据支持时遇到的一个问题。
  • 元学习(Meta-learning):也称为学习如何学习,关注在少数据或元数据情况下,快速适应和预测新情况。
  • 超参数调优:通过调整模型的参数来优化模型性能,但不直接解决模型初期表现预测的问题。
  • 穷举法和遗传算法:共同点在于都是参数搜索和优化的方法,适用于寻找最佳参数组合,但不特定解决冷启动。

Q104

You want to use ADSTuner to tune the hyperparameters of a supported model you recently trained. You have just started your search and want to reduce the computational cost as well as access the quality of the model class that you are using. What is the most appropriate search space strategy to choose?

A. ADSTuner doesn't need a search space to tune the hyperparameters.
B. Perfunctory
C. Pass a dictionary that defines a search space.
D. Detailed

答案:C

中文翻译题目和选项

您想要使用 ADSTuner 来调整最近训练的支持模型的超参数。您刚刚开始搜索,并希望减少计算成本,同时评估所使用模型类别的质量。应选择哪种最适合的搜索空间策略?

A. ADSTuner 在调优超参数时不需要搜索空间。
B. 草率的
C. 传递一个定义搜索空间的字典。
D. 详细的

题干含义:
题目询问在使用 ADSTuner 调优模型超参数时,应该选择哪种搜索空间策略,以达到降低计算成本和评估模型质量的目的。

选项分析

  1. A: ADSTuner需要一个搜索空间来指导调优过程,因此不正确。
  2. B: 草率的方法可能会导致搜索的效率低下和效果不佳。
  3. C: 传递一个定义搜索空间的字典能够明确调优范围,有助于减少计算资源消耗并高效找到最佳参数。(正确答案
  4. D: 详细定义搜索空间可能会增加复杂度和计算成本,不利于资源使用优化。

相关知识点总结

  • 超参数调优:是提升模型性能的关键手段,通过优化算法(如ADSTuner),可以有效地寻找模型的最佳配置。
  • 搜索空间:定义搜索空间有助于指导调优过程,避免无效和低效的尝试。
  • 计算成本:资源配置和效率的优化能减少调优过程中的计算成本,提高生产力和模型效果。
  • 字典传递:利用字典结构来定义搜索空间可以保证灵活性和精准度,更好地适应不同模型调优需求。

Q105

Using Oracle AutoML, you are tuning hyperparameters on a supported model class and have specified a time budget. AutoML terminates computation once the time budget is exhausted. What would you expect AutoML to return in case the time budget is exhausted before hyperparameter tuning is completed?

A. A random hyperparameter configuration is returned.
B. The last generated hyperparameter configuration is returned.
C. The current best-known hyperparameter configuration is returned.
D. A hyperparameter configuration with a minimum learning rate is returned.

答案:C

中文翻译题目和选项

使用 Oracle AutoML 时,您正在对支持的模型类别进行超参数调优,并指定了时间预算。一旦时间预算耗尽,AutoML 将终止计算。如果在超参数调优完成之前时间预算耗尽,您期望 AutoML 返回什么?

A. 返回随机的超参数配置。
B. 返回最后生成的超参数配置。
C. 返回当前已知的最佳超参数配置。
D. 返回具有最小学习率的超参数配置。

题干含义:
题目询问在使用 Oracle AutoML 进行超参数调优时,若时间预算耗尽,AutoML 应返回哪种超参数配置。

选项分析

  1. A: 返回随机配置在耗尽预算的情况下无意义,不符合优化目标。
  2. B: 仅返回最后一次生成的配置可能不是最佳方案。
  3. C: 返回当前已知的最佳配置确保在时间限制内获取最优效果。(正确答案
  4. D: 返回带有最小学习率的配置并不一定表示最优解。

相关知识点总结

  • AutoML 超参数调优:通过自动化机器学习可以自动搜索最佳超参数,减少人工试错和时间成本。
  • 时间预算:设定计算时间上限,以避免资源浪费并优化调优效率。
  • 最佳策略输出:在预算约束下,自动选择和返回当前最佳配置,有助于确保模型的性能不受影响。

Q106

You are creating an Oracle Cloud Infrastructure (OCI) Data Science job that will run on a recurring basis in a production environment. This job will pick up sensitive data from an Object Storage bucket, train a model, and save it to the model catalog. How would you design the authentication mechanism for the job?

A. Package your personal OCI config file and keys in the job artifact.
B. Store your personal OCI config file and keys in the Vault, and access the Vault through the job run resource principal.
C. Create a pre-authenticated request (PAR) for the Object Storage bucket, and use that in the job code.
D. Use the resource principal of the job run as the signer in the job code, ensuring there is a dynamic group for this job run with appropriate access to Object Storage and the model catalog.

答案:D

中文翻译题目和选项

您正在创建一个 Oracle云基础架构(OCI)数据科学作业,该作业将在生产环境中定期运行。此作业将从对象存储桶中提取敏感数据,训练模型,并将其保存到模型目录中。您将如何设计此工作任务的认证机制?

A. 将您的个人 OCI 配置文件和密钥打包到作业工件中。
B. 将您的个人 OCI 配置文件和密钥存储在 Vault 中,并通过作业运行资源主体访问 Vault。
C. 为对象存储桶创建一个预认证请求(PAR),并在作业代码中使用它。
D. 使用作业运行的资源主体作为作业代码中的签名者,确保为此作业运行创建动态组,并具有适当的对象存储和模型目录访问权限。

题干含义:
题目询问在创建一个用于生产环境的 OCI 数据科学作业时,如何设计其访问敏感数据的身份认证机制。

选项分析

  1. A: 将个人配置文件打包在作业中不安全,容易导致凭证泄露。
  2. B: 虽然提高了安全性,但仍然依赖个人凭证,管理较复杂。
  3. C: 使用 PAR 可能面临安全性不足的问题,特别是在定期运行的环境中。
  4. D: 使用资源主体在 OCI 中是推荐做法,能够动态地管理权限,确保安全。(正确答案

相关知识点总结

  • 资源主体(Resource Principal):是 OCI 中的一种身份认证机制,允许云服务在不使用个人凭证的情况下安全地进行身份验证。
  • 身份与访问管理(IAM):OCI 提供了一套全面的 IAM 工具,以确保具备适当的安全级别来保护敏感操作和数据。
  • 动态组:允许按需分配和管理特定作业的访问权限,便于维护和提高安全性。
  • 安全性最佳实践:应尽量避免在代码中嵌入个人密钥或凭证,使用云服务原生的安全机制。

Q107

You have created a Data Science project in a compartment called Development and shared it with a group of collaborators. You now need to move the project to a different compartment called Production after completing the current development iteration. Which statement is correct?

A. You cannot move a project to a different compartment after it has been created.
B. Moving a project to a different compartment requires deleting all its associated notebook sessions and models first.
C. You can move a project to a different compartment without affecting its associated notebook sessions and models.
D. Moving a project to a different compartment also moves its associated notebook sessions and models to the new compartment.

答案:C

中文翻译题目和选项

您已在一个名为 Development 的区间内创建了一个数据科学项目,并与一组协作者共享。现在在完成当前开发迭代后,您需要将项目移动到一个名为 Production 的不同区间。哪个说法是正确的?

A. 项目创建后,不能将其移动到不同的区间。
B. 将项目移动到不同的区间需要先删除其所有关联的笔记本会话和模型。
C. 您可以在不影响其关联的笔记本会话和模型的情况下,将项目移动到不同的区间。
D. 将项目移动到不同的区间时,其关联的笔记本会话和模型也会移动到新区间。

题干含义:
题目询问在 Oracle 云基础设施中,如何正确地将数据科学项目从一个区间移动到另一个区间,以及相关行为对项目内实体(如笔记本和模型)的影响。

选项分析

  1. A: 误导性的选项,Oracle 云支持项目跨区间移动。
  2. B: 无需删除关联会话或模型,因此此选项错误。
  3. C: 可以在不影响关联实体的情况下完成区间移动,项目相关会话和模型会保留并继续关联。(正确答案
  4. D: 尽管项目可以移动,但会话和模型不会自动随项目移动到新区间。

相关知识点总结

  • Oracle OCI 多区间管理:支持在不同逻辑区间下管理资源,以便于组织和权限管理。
  • 项目移动功能:在 OCI 中,可以在不影响现有资源状态的情况下,将项目从一个区间移动到另一个,以便于更好的环境隔离和管理。
  • 关联资源管理:项目移动后需要手动管理和重新配置相关资源的区间定位。

Q108

You have built a machine model to predict whether a bank customer is going to default on a loan. You want to use Local Interpretable Model-Agnostic Explanations (LIME) to understand a specific prediction. What is the key idea behind LIME?

A. Global behavior of a machine learning model may be complex, while the local behavior may be approximated with a simpler surrogate model.
B. Global and local behaviors of machine learning models are similar.
C. Model-agnostic techniques are more interpretable than techniques that are dependent on the types of models.
D. Local explanation techniques are model-agnostic, while global explanation techniques are not.

答案:A

中文翻译题目和选项

您已经建立了一个机器学习模型来预测银行客户是否会违约贷款。您希望使用LIME(局部可解释的模型无关解释)来理解特定预测。LIME背后的关键思想是什么?

A. 机器学习模型的全局行为可能较为复杂,而局部行为可以用较简单的代理模型进行近似。
B. 机器学习模型的全局行为和局部行为是相似的。
C. 模型无关技术比依赖模型类型的技术更具可解释性。
D. 局部解释技术是模型无关的,而全局解释技术则不是。

题干含义:
题目询问LIME方法的核心理念,尤其是如何通过使用较简单的模型近似复杂模型的局部行为以进行解释。

选项分析

  1. A: 描述了LIME的核心,即用简单模型来解释复杂的局部行为。(正确答案
  2. B: 模型的全局和局部行为并不相似,尤其在非线性模型中。
  3. C: 尽管表述正确,但不直接解释LIME的机制。
  4. D: 部分正确,但不直接反映LIME的主要思想。

相关知识点总结

  • LIME:是一种解释机器学习模型输出的方法。通过用简单模型近似复杂模型的局部行为,能够提供可解释性。
  • 模型无关性:LIME不依赖于具体的模型结构,适用于广泛的模型类型。

Q109

What detector in PII Operator are you likely to use if you need to obfuscate the detected sensitive information?

A. Anonymize
B. Mask
C. Remove

答案:B

中文翻译题目和选项

如果需要在检测到的敏感信息中进行模糊处理,您可能会在PII Operator中使用哪种检测器?

A. 匿名化
B. 遮罩
C. 删除

题干含义:
题目询问在模糊化敏感信息时,会使用哪种PII(个人身份信息)操作。

选项分析

  1. A: 匿名化会永久去除识别信息,但不一定模糊。
  2. B: 遮罩方法用于隐藏特定信息的部分,以防泄露。(正确答案
  3. C: 删除会去除信息,而不是模糊处理。

相关知识点总结

  • PII处理:包括匿名化、遮罩和删除等,依据需求选用合适的方式保护敏感数据。
  • 遮罩:常用于在显示数据时部分掩盖敏感信息。

Q110

You want to evaluate the relationship between feature values and target variables. You have a large number of observations having a near uniform distribution and the features are highly correlated. Which model explanation technique should you choose?

A. Feature Dependence Explanations
B. Local Interpretable Model-Agnostic Explanations
C. Accumulated Local Effects
D. Feature Permutation Importance Explanations

答案:C

中文翻译题目和选项

您想评估特征值和目标变量之间的关系。您有大量观察数据,呈现接近均匀分布,并且这些特征高度相关。您应该选择哪种模型解释技术?

A. 特征依赖解释
B. 局部可解释模型无关解释
C. 累积局部效应
D. 特征置换重要性解释

题干含义:
题目询问在特征高度相关且数据分布均匀的情况下,用哪种方法评估特征与目标变量的关系。

选项分析

  1. A: 一般用于理解特征的单一依赖关系。
  2. B: 多用于个例分析,而非特征整体解释。
  3. C: 累积局部效用考虑特征之间的交互,适合评估复杂相关性。(正确答案
  4. D: 适合判断特征重要性,但不能全面解释因果关系。

相关知识点总结

  • 高相关性处理:特征相关性影响模型稳定性和可靠性。
  • 累积效应:分析特征不同值对模型输出的累积影响,为非线性和复杂交互模型提供通用解释。

Q111

What is the sequence of steps you are likely to follow to use OCI Data Science Operator?

A. Install conda.
Initialize operator.
Configure operator.
Run operator.
Check results.

B. Configure operator.
Install conda.
Initialize operator.
Run operator.
Check results.

C. Check results.
Install conda.
Initialize operator.
Run operator.
Check results.

D. Initialize operator.
Install conda.
Check results.
Configure operator.
Run operator.

答案:A

中文翻译题目和选项

使用 OCI 数据科学操作员时,您可能会遵循哪种步骤顺序?

A. 安装 conda。
初始化操作员。
配置操作员。
运行操作员。
检查结果。

B. 配置操作员。
安装 conda。
初始化操作员。
运行操作员。
检查结果。

C. 检查结果。
安装 conda。
初始化操作员。
运行操作员。
检查结果。

D. 初始化操作员。
安装 conda。
检查结果。
配置操作员。
运行操作员。

题干含义:
题目要求选择使用 OCI 数据科学操作员的合理步骤顺序。

选项分析

  1. A: 先安装必需软件(conda),再初始化和配置操作员,运行后检查结果,顺序合理。(正确答案
  2. B: 先配置操作员,但没有安装基础工具,不合理。
  3. C: 先进行结果检查和基础软件安装,顺序有误。
  4. D: 未进行软件安装即初始化,且顺序混乱无序。

相关知识点总结

  • Conda 安装:是 Python 及科学计算的常用环境管理工具,须先行安装。
  • 操作员初始化和配置:在执行之前需要完成安装后的选择配置,确保其按需求工作。
  • 测试运行与结果检查:最后确保流程正确实施,验证操作员功能并分析产出。

Q112

You have created a conda environment in your notebook session. This is the first time you are working with published conda environments. You have also created an Object Storage bucket with permission to manage the bucket. Which two commands are required to publish the conda environment?

A. odsc conda publish --slug
B. odsc conda list --override
C. odsc conda create --file manifest.yaml
D. odsc conda init --bucket_namespace --bucket_name
E. conda activate /home/datascience/conda//

答案:AD

中文翻译题目和选项

您已在笔记本会话中创建了一个 Conda 环境。这是您第一次使用已发布的 Conda 环境。您还创建了一个具有管理权限的对象存储桶。需要哪两个命令来发布 Conda 环境?

A. odsc conda publish --slug
B. odsc conda list --override
C. odsc conda create --file manifest.yaml
D. odsc conda init --bucket_namespace --bucket_name
E. conda activate /home/datascience/conda//

题干含义:
题目询问在首次发布 Conda 环境时,应该使用哪些命令来完成环境的发布。

选项分析

  1. A: 这是发布 Conda 环境所需的命令之一,用于指定发布的唯一标识符(SLUG)。(正确答案
  2. B: 列出 Conda 包或配置,和发布环境无关,与发布无直接关系。
  3. C: 创建新环境或从文件中构建,和发布操作次序不对。
  4. D: 初始化存储桶的命令是必需的,以确保请求能够访问适当的存储空间以保存环境。(正确答案
  5. E: 激活 Conda 环境的路径与发布环境无关,只是执行准备。

相关知识点总结

  • Conda 环境管理:需要通过特定命令进行环境的创建、配置和发布,以确保相应环境在不同机器或环境下重现。
  • 对象存储桶结合使用:通过配置涉及的命令行工具和权限设置,结合 OCI 资源动态管理和发布 Conda 环境。

Q113

A data scientist is working on a deep learning project with TensorFlow and wants to ensure the same environment can be shared with colleagues. What is the best approach?

A. Create a new Conda environment every time a colleague needs access.
B. Store the Conda environment as a published Conda environment in Object Storage.
C. Copy and paste the package list into a text file for manual installation.
D. Manually install TensorFlow on each team member’s machine.

答案:B

中文翻译题目和选项

一名数据科学家正在使用 TensorFlow 进行深度学习项目,并希望确保可以与同事共享同一环境。最佳方法是什么?

A. 每次同事需要访问时创建一个新的 Conda 环境。
B. 将 Conda 环境作为已发布的 Conda 环境存储在对象存储中。
C. 将包列表复制并粘贴到文本文件中以进行手动安装。
D. 在每个团队成员的机器上手动安装 TensorFlow。

题干含义:
题目询问在团队环境设置中,如何高效地共享 Conda 环境以支持深度学习项目。

选项分析

  1. A: 每次创建新的环境资源浪费且不便于管理。
  2. B: 将 Conda 环境作为发布的环境存储在对象存储中,可以方便地分发和部署到多个用户机器中,确保环境一致性。(正确答案
  3. C: 手动安装包列表容易出错且繁琐。
  4. D: 手动安装各机器上所需的软件影响效率和一致性。

相关知识点总结

  • 共享环境:通过使用对象存储可以集中管理包和环境配置,确保团队成员间的一致性。
  • 环境可复用性:已发布的 Conda 环境提供便捷的分发方式,避免重复工作和环境不一致问题。
  • 基础设施能力:利用云端存储和管理工具提高部署效率和协作便利度。

Q114

You want to ensure that all stdout and stderr from your code are automatically collected and logged, without implementing additional logging in your code. How would you achieve this with Data Science Jobs?

A. Make sure that your code is using the standard logging library and then store all the logs to Object Storage at the end of the job.
B. You can implement custom logging in your code by using the Data Science Jobs logging service.
C. Create your own log group and use a third-party logging service to capture job run details for log collection and storing.
D. On job creation, enable logging and select a log group. Then, select either a log or the option to enable automatic log creation.

答案:D

中文翻译题目和选项

您希望确保从代码输出的所有 stdoutstderr 被自动收集和记录,而无需在代码中实现额外的日志记录。如何通过数据科学作业实现这一点?

A. 确保代码使用标准日志库,然后在作业结束时将所有日志存储到对象存储中。
B. 您可以通过数据科学作业日志服务在代码中实现自定义日志记录。
C. 创建您自己的日志组,并使用第三方日志服务来捕获作业运行详细信息以进行日志收集和存储。
D. 在作业创建时,启用日志记录并选择一个日志组。然后,选择日志或选项以启用自动日志创建。

题干含义:
题目询问如何在不修改代码的情况下自动收集和记录所有标准输出和错误输出。

选项分析

  1. A: 需要在代码中使用特定库,并手动将日志存储到对象存储,与无需额外实现的要求不符。
  2. B: 涉及到自定义代码实现,违背了无需额外编码的初衷。
  3. C: 依靠外部服务和创建日志组,增加复杂性。
  4. D: 提供了一种内建方式来在作业创建时期直接启用自动日志记录功能,无需修改代码。(正确答案

相关知识点总结

  • 日志管理:云环境中的自动化日志管理能帮助减少人工介入并保持标准化。
  • 数据科学作业支持:允许在作业创建阶段启用日志功能,提升开发效率和管理便捷性。
  • 自动化工具:利用内建机制自动记录日志而无需更改代码,是优化流程的有效途径。

Q115

You want to build a multistep machine learning workflow by using the Oracle Cloud Infrastructure (OCI) Data Science Pipeline feature. How would you configure the conda environment to run a pipeline step?

A. Use command-line variables.
B. Configure a block volume.
C. Use environmental variables.
D. Configure a compute shape.

答案:C

中文翻译题目和选项

您希望通过使用 Oracle 云基础设施(OCI)数据科学管道功能来构建一个多步骤的机器学习工作流。您将如何配置 conda 环境以运行管道步骤?

A. 使用命令行变量。
B. 配置块存储卷。
C. 使用环境变量。
D. 配置计算形状。

题干含义:
题目询问在 OCI 数据科学管道中如何配置 Conda 环境以完成管道步骤的执行。

选项分析

  1. A: 命令行变量通常用于执行时传递参数,在配置环境上下文中不常用。
  2. B: 块存储卷用于存储配置,与环境设置不直接相关。
  3. C: 使用环境变量可以灵活设置和调整 Conda 环境,适合配置多步骤工作流中的各个步骤。(正确答案
  4. D: 计算形状的配置与资源使用相关,非环境配置选项。

相关知识点总结

  • 环境变量:是 Unix/Linux 系统中用于传递信息的标准方式,可用来配置 Conda等环境信息。
  • 多步骤机器学习工作流:灵活配置各步骤环境有助于提升自动化和计算资源使用的效率。
  • OCI 管道功能:支持通过指定环境和硬件资源来优化流程管理,并轻松部署复杂工作流。

Q116

You are attempting to save a model from a notebook session to the model catalog by using the Accelerated Data Science (ADS) SDK, with resource principal as the authentication signer, and you get a 404 authentication error. Which two should you look for to ensure permissions are set up correctly?

A. The policy for your user group grants manage permissions for the model catalog in this compartment.
B. The networking configuration allows access to Oracle Cloud Infrastructure services through a Service Gateway.
C. The policy for a dynamic group grants manage permissions for the model catalog in this compartment.
D. A dynamic group with matching rules and permissions for the notebook sessions in this compartment.
E. The model artifact is saved to the block volume of the notebook session.

答案:C 和 D

中文翻译题目和选项

你正在尝试使用加速数据科学(ADS) SDK通过资源主体作为认证签名者,将模型从笔记本会话保存到模型目录,结果遇到404认证错误。要确保权限正确设置,你应该检查哪两个选项?

A. 您的用户组政策授权此分区的模型目录管理权限。
B. 网络配置通过服务网关允许访问Oracle Cloud Infrastructure服务。
C. 动态组的策略在此分区中授予模型目录管理权限。
D. 动态组与匹配规则和笔记本会话的权限在此分区中。
E. 模型工件,其保存在笔记本会话的块卷中。

题干含义:
本题要求找出正确设置基础设施权限,以避免系统产生404认证错误——资源主体作为认证签名者,保存模型到Oracle云的模型目录。

选项分析

  1. A: 用户组的管理权限设置与资源主体认证关联度不高,因为问题核心围绕资源主体。
  2. B: 网络配置选项并不直接影响认证问题。
  3. C: 动态组有权限管理模型目录,确保资源主体认证可操作的访问控制。(正确答案
  4. D: 动态组需有匹配规则和访问权限,允许授予Notebook会话中的操作权限。(正确答案
  5. E: 模型工件保存位置与认证权限问题不直接相关。

相关知识点总结

  • 资源主体:一种身份验证机制,用于确定权限并与Oracle资源交互。在使用ADS SDK时,设置动态组和相关策略以确保权限的正确性非常重要。
  • 动态组:这是一种包含根据条件匹配的实体的集合,可以设置策略以授权这些实体对资源的访问。确保有合适的匹配规则和权限赋予。
  • 模型目录管理权限:需要确保针对包含模型目录的分区已授予正确的访问权限。
  • 策略和授权:在Oracle Cloud环境设置中,策略为用户或用户组分配了适当的权限,以执行对资源的管理和访问。

Q117

You want to install a list of Python packages on your data science notebook session while creating the instance. Which option will allow you to do the same?

A. Using runtime configuration
B. Using storage mounts
C. Invoking public endpoint

答案:A

中文翻译题目和选项

您想在创建实例时在数据科学笔记本会话中安装Python包列表。哪个选项可以让您执行相同的操作?

A. 使用运行时配置
B. 使用存储挂载
C. 调用公共端点

题干含义:
题目要求找出一种方法,以便在数据科学笔记本实例创建阶段安装多个Python包,即在环境初始化时定制化软件安装。

选项分析

  1. A: 使用运行时配置,这选项通常包括定义启动脚本或bash命令,以便在实例启动时自动安装指定的Python包列表。这最直接,且在创建实例时即可执行自动化安装。(正确答案
  2. B: 使用存储挂载用于挂载文件系统,不直接关联软件包安装任务,无法实现自动软件环境配置。
  3. C: 调用公共端点并不涉及实例创建时包管理相关功能,无法用于初始软件环境搭建。

相关知识点总结

  • 运行时配置:在数据科学或云服务平台上,运行时配置提供了方式来定义环境初始化的行为。例如,通过启动脚本安装依赖软件包。
  • 自动化安装:通过设定启动脚本/配置文件,使系统能在启动时,自动安装必要的软件,如Python package,确保工作环境的准备就绪。
  • 其他选项如存储挂载和调用端点只是实例创建及使用中的辅助功能,并非用于环境初始化的工具。

Q118

Once the LangChain application is deployed to OCI Data Science, what are two ways to invoke it as an endpoint?

A. Use .predict method or Use CLI
B. Use CLI or Use .invoke()
C. Use .invoke() method or Use .predict method

答案:C

中文翻译题目和选项

当 LangChain 应用部署到 OCI Data Science 后,以终端节点调用应用的两种方式是什么?

A. 使用 .predict 方法 或 使用 CLI
B. 使用 CLI 或 使用 .invoke()
C. 使用 .invoke() 方法 或 使用 .predict 方法

题干含义:
问题要求我们选择两种能够在 OCI Data Science 部署后调用 LangChain 应用的方式。

选项分析

  1. A: 其中包括 .predict 方法和 CLI。CLI 提供了一种直接从命令行执行的方式,但没有提到 .invoke(),而.predict是常用于机器学习模型接口的方法。
  2. B: 选项中提到的是 CLI 和 .invoke(),但缺少 .predict 方法,会对高效调用造成限制。
  3. C: 包含 .invoke() 方法和 .predict 方法,这两种方法均适用于调用已部署的应用。(正确答案

相关知识点总结

  • 预测方法(.predict method): 用于在机器学习服务中,给出输入数据后产生输出预测值。
  • 调用方法(.invoke method): 通常在应用部署后,用来通过编程接口直接执行和获取结果。
  • OCI Data Science (Oracle Cloud Infrastructure Data Science): 是一个云服务提供商,用于部署和管理数据科学应用。
  • 在应用部署后,应该确保调用模式匹配已部署服务的接口规范,以确保数据传递正确。

Q119

A data scientist is analyzing customer churn data and wants to visualize the relationship between monthly charges (a continuous variable) and churn status (a categorical variable).
What is the best visualization that ADS will likely generate?

A. A violin plot
B. A scatterplot
C. A histogram
D. A line chart

答案:A

中文翻译题目和选项

一位数据科学家正在分析客户流失数据,并希望可视化月度费用(一个连续变量)和流失状态(一个分类变量)之间的关系。
ADS(自动数据科学)最有可能生成的最佳可视化是什么?

A. 小提琴图
B. 散点图
C. 直方图
D. 折线图

题干含义:
题目要求我们选择一种适当的可视化方式,以展示连续和分类变量之间的关系。

选项分析

  1. A: 小提琴图适用于显示连续数据的分布,这里需要显示月度费用在不同流失状态下的分布情况,因此适合使用小提琴图。(正确答案
  2. B: 散点图通常用于两个连续变量之间的关系,不适用于一个连续变量和一个分类变量。
  3. C: 直方图用于表示一个连续变量的分布,不适于显示分类变量与连续变量之间的关系。
  4. D: 折线图主要用于时间序列数据的趋势分析,与此题不匹配。

相关知识点总结

  • 小提琴图(Violin Plot):是一种结合了箱线图和密度图信息的高级图形,适用于展示数据的分布情况并可区分不同的类(分类变量),尤其适合于理解连续变量的分布在不同分类变量中的表现。
  • 分类变量与连续变量的关系:当需要分析连续变量在不同类别下的分布情况时,可选择小提琴图或箱线图。
  • 可视化选择的理据:选择可视化方式时,应考虑变量的类型(连续、分类)以及分析的目标,以便更有效地展示数据之间的关系。

Q120

You have just received a new data set from a colleague. You want to quickly find out summary information about the data set, such as the types of features, the total number of observations, and distributions of the data.
Which Accelerated Data Science (ADS) SDK method from the ADSDataset class would you use?

A. show_in_notebook()
B. compute()
C. to_xgb()
D. show_corr()

答案:A

中文翻译题目和选项

您刚从同事那里收到一个新的数据集。您想快速找出该数据集的摘要信息,例如特征类型、观测总数和数据分布。
您会使用 ADSDataset 类中的哪个加速数据科学(ADS)SDK 方法?

A. show_in_notebook()
B. compute()
C. to_xgb()
D. show_corr()

题干含义:
问题要求选择一个能够快速展示数据集摘要信息的方法。

选项分析

  1. A: show_in_notebook() 方法用于在笔记本中可视化数据集信息,包括特征类型、观测数以及数据分布,非常适合用于快速查看数据集的摘要信息。(正确答案
  2. B: compute() 方法通常用于执行计算,与直接显示数据集信息无关。
  3. C: to_xgb() 方法用于将数据转换为 XGBoost 格式,跟数据展示无关。
  4. D: show_corr() 方法通常用于显示数据的相关性,不包括数据概览。

相关知识点总结

  • show_in_notebook() 方法:用于在数据科学笔记本中对数据集进行可视化展示,提供直观的摘要信息。
  • 数据集摘要信息:包括特征类型、样本总数、数据分布等,通常是数据科学工作开始时必备的背景知识。
  • ADS(加速数据科学)SDK:为数据科学家提供了一系列工具和方法,帮助简化和加速数据处理、分析和建模工作。
  • 应用适当的方法不仅能提高工作效率,也能促进数据分析的准确性。

Q121

As a data scientist, you are working on a movie recommendation application where you have a very large movie dataset.
Which Oracle Cloud Infrastructure (OCI) services should you use to develop interactive Spark applications and deploy Spark workloads?

A. Data Science and Vault
B. Data Integration and Vault
C. Analytics Cloud and Data Flow
D. Data Flow and Data Science

答案:D

中文翻译题目和选项

作为数据科学家,您正在开发一个电影推荐应用程序,并有一个非常大的电影数据集。
您应该使用哪些 Oracle 云基础设施 (OCI) 服务来开发交互式 Spark 应用程序并部署 Spark 工作负载?

A. 数据科学和保险库(Vault)
B. 数据集成和保险库(Vault)
C. 分析云和数据流
D. 数据流和数据科学

题干含义:
问题要求选择可以用来开发交互式 Spark 应用程序和部署 Spark 工作负载的 OCI 服务。

选项分析

  1. A: 数据科学和保险库会涉及数据科学应用开发,但保险库主要用于密钥管理,与 Spark 工作负载管理关系不密切。
  2. B: 数据集成和保险库中的数据集成用于连接数据源,保险库仍与部署 Spark 无直接关系。
  3. C: 分析云主要用于分析应用,而不是特定的 Spark 工作负载部署。
  4. D: 数据流(Data Flow)和数据科学(Data Science)结合了提供流处理和数据科学功能的服务,符合开发和部署 Spark 应用工作负载的需求。(正确答案

相关知识点总结

  • 数据流(Data Flow) 是一种无服务器的 Apache Spark 流服务,适用于数据密集应用程序。
  • 数据科学(Data Science)服务 提供了全面的开发环境,包括 Jupyter Notebooks、Oracle 机器学习库以及大规模数据分析和模型开发功能。
  • Spark 工作负载:广泛用于大数据处理和实时分析,常依赖于大规模数据集的处理能力。
  • 选择合适的 OCI 服务有助于提升应用程序开发效率和管理复杂度。

Q122

You are working as a data scientist for a healthcare company. They decide to analyze the data to find patterns in a large volume of electronic medical records. You are asked to build a PySpark solution to analyze these records in a JupyterLab notebook.
What is the order of recommended steps to develop a PySpark application in Oracle Cloud Infrastructure (OCI) Data Science?

A. Install a Spark conda environment. Configure core-site.xml. Launch a notebook session. Create a Data Flow application with the Accelerated Data Science (ADS) SDK. Develop your PySpark application.
B. Launch a notebook session. Install a PySpark conda environment. Configure core-site.xml. Develop your PySpark application.
C. Launch a notebook session. Configure core-site.xml. Install a PySpark conda environment. Develop your PySpark application. Create a Data Flow application with the Accelerated Data Science (ADS) SDK.
D. Configure core-site.xml. Install a PySpark conda environment. Create a Data Flow application with the Accelerated Data Science (ADS) SDK. Develop your PySpark application. Launch a notebook session.

答案:B

中文翻译题目和选项

您在一家医疗公司担任数据科学家。他们决定分析数据以在大量电子医疗记录中寻找模式。您被要求构建一个 PySpark 解决方案,以在 JupyterLab 笔记本中分析这些记录。
在 Oracle 云基础设施 (OCI) 数据科学中开发 PySpark 应用程序的推荐步骤顺序是什么?

A. 安装 Spark conda 环境。配置 core-site.xml。启动笔记本会话。使用加速数据科学(ADS)SDK 创建数据流应用程序。开发 PySpark 应用程序。
B. 启动笔记本会话。安装 PySpark conda 环境。配置 core-site.xml。开发 PySpark 应用程序。
C. 启动笔记本会话。配置 core-site.xml。安装 PySpark conda 环境。开发 PySpark 应用程序。使用加速数据科学(ADS)SDK 创建数据流应用程序。
D. 配置 core-site.xml。安装 PySpark conda 环境。使用加速数据科学(ADS)SDK 创建数据流应用程序。开发 PySpark 应用程序。启动笔记本会话。

题干含义:
题目要求选择在 OCI 数据科学中开发 PySpark 应用程序的正确步骤顺序。

选项分析

  1. A

    • 安装 Spark conda 环境 → 配置 core-site.xml → 启动 notebook → 创建 Data Flow 应用 → 编写 PySpark
    • 步骤顺序混乱,错误(应先启动 notebook,环境和配置应在 notebook 内完成)。
  2. B

    • 启动 notebook → 安装 PySpark conda 环境 → 配置 core-site.xml → 编写 PySpark 应用
    • 符合推荐流程:先启动 notebook,再在里面安装/选择合适环境,配置连接,然后开发。
  3. C

    • 启动 notebook → 配置 core-site.xml → 安装 PySpark 环境 → 开发 PySpark → 创建 Data Flow 应用
    • 步骤顺序不优:一般推荐先安装好 PySpark 环境,再配置 core-site.xml。
  4. D

    • 配置 core-site.xml → 安装 PySpark 环境 → 创建 Data Flow 应用 → 编写 PySpark → 启动 notebook
    • 完全错误,因为 notebook 需要先启动,后续所有步骤应在其内部完成。

相关知识点总结

  • JupyterLab 与 OCI:JupyterLab 是常用的开发环境,OCI 数据科学提供了原生支持。
  • PySpark 环境:需要 conda 或 pip 来安装和管理可用的软件包。
  • 推荐在 OCI Data Science 内部先开启 notebook 会话,再配置关联的 Python/PySpark conda 环境。
  • core-site.xml 用于 Hadoop/Spark 相关连接配置。建议在合适的环境内配置,不要先于环境创建。
  • 最后在 notebook 里进行代码开发、可选地通过 ADS SDK/OCI Data Flow 提交 Spark 任务。

Q123

You loaded data into Oracle Cloud Infrastructure (OCI) Data Science. To transform the data, you want to use the Accelerated Data Science (ADS) SDK. When you applied the get_recommendations() tool to the ADSDataset object, it showed you user-detected issues with all the recommended changes to apply to the dataset.
Which option should you use to apply all the recommended transformations at once?

A. auto_transform()
B. fit_transform()
C. visualize_transforms()
D. get_transformed_dataset()

答案:A

中文翻译题目和选项

您将数据加载到 Oracle Cloud Infrastructure (OCI) Data Science 中。为了转换数据,您想要使用 Accelerated Data Science (ADS) SDK。当您将 get_recommendations() 工具应用于 ADSDataset 对象时,它向您显示了所有推荐的变化建议以应用于数据集。
您应该使用哪个选项来一次性应用所有推荐的转换?

A. auto_transform()
B. fit_transform()
C. visualize_transforms()
D. get_transformed_dataset()

题干含义:
这个问题要求我们寻找能够一次性应用所有推荐转换的方法。题目背景中提到了使用 get_recommendations() 工具来获取应用于数据集的建议。

选项分析

  1. A. auto_transform()
    • 用于自动应用 get_recommendations() 检测出的所有建议转换。这是推荐的“一次性全部应用”方式。
  2. B. fit_transform()
    • 通常用于针对某个特定转换器(如标准化、编码器等)手动拟合转换,不是批量推荐项整体自动应用。
  3. C. visualize_transforms()
    • 用于可视化转换建议或应用后的效果,仅做分析和展示,不实际执行数据转换。
  4. D. get_transformed_dataset()
    • 获取已经被转换的数据集对象,但前提是必须已应用转换(通常配合 A 或 B 使用),不负责主动“应用”转换。

相关知识点总结

  • Oracle Cloud Infrastructure (OCI) Data Science 是一个用于数据科学的云平台。
  • Accelerated Data Science (ADS) SDK 是 Oracle 提供的加速数据科学工具包。
  • ADS SDK 提供 get_recommendations() 自动检测和建议各类数据清洗与特征工程步骤。
  • 通过 auto_transform() 方法,可一键应用所有系统推荐的数据转换处理。
  • 其他方法适合局部微调或后续探索,但不是批量“一键全转”。

Q124

After you have created and opened a notebook session, you want to use the Accelerated Data Science (ADS) SDK to access your data and get started with an exploratory data analysis.
From which two places can you access or install the ADS SDK?

A. Conda environments in Oracle Cloud Infrastructure (OCI) Data Science
B. Oracle Autonomous Data Warehouse
C. Oracle Machine Learning (OML)
D. Oracle Big Data Service
E. Python Package Index (PyPi)

答案:AE

中文翻译题目和选项

在创建并打开记事本会话后,您想要使用 Accelerated Data Science (ADS) SDK 来访问您的数据并开始探索性数据分析。
您可以从哪两个地方访问或安装 ADS SDK?

A. Oracle Cloud Infrastructure (OCI) Data Science 中的 Conda 环境
B. Oracle Autonomous Data Warehouse
C. Oracle Machine Learning (OML)
D. Oracle Big Data Service
E. Python Package Index (PyPi)

题干含义:
此题目询问可以从哪些平台或服务访问或安装 ADS SDK,目标为开始数据分析工作。

选项分析

  1. A: Conda environments in Oracle Cloud Infrastructure (OCI) Data Science

    • 原生支持的环境,通常集成了多种数据科学工具与库。(正确答案
  2. B: Oracle Autonomous Data Warehouse

    • 数据仓库与 ADS SDK 不直接相关,主要用于存储和查询。
  3. C: Oracle Machine Learning (OML)

    • 提供机器学习功能,但与 ADS SDK 安装无直接关系。
  4. D: Oracle Big Data Service

    • 面向处理大量数据的服务,与 ADS SDK 不直接关联。
  5. E: Python Package Index (PyPi)

    • PyPi 是 Python 包管理器,可以通过它来获取各种 SDK 包包括 ADS。(正确答案

相关知识点总结

  • Oracle的加速数据科学(ADS)SDK是一套工具集,支持OCI数据科学平台。
  • Conda环境 在 Oracle Cloud 中提供了预安装库和工具,使数据科学家能迅速开始工作。
  • PyPi 同样支持大量 Python 库和工具的安装,包括用于数据分析和机器学习的各种 SDK。
  • 在任何数据科学项目中,选择合适的环境和工具至关重要,以便实现高效分析与处理。

Q125

You are a data scientist with a set of text and image files that need annotation, and you want to use Oracle Cloud Infrastructure (OCI) Data Labeling.
Which of the following THREE annotation classes are supported by the tool?

A. Semantic Segmentation
B. Object Detection
C. Classification (single/multi-label)
D. Named Entity Extraction
E. Key-Point and Landmark
F. Polygonal Segmentation

答案:

B. Object Detection
C. Classification (single/multi-label)
D. Named Entity Extraction

中文翻译题目和选项

您是一名数据科学家,拥有一套需要标注的文本和图像文件,并且您希望使用 Oracle Cloud Infrastructure (OCI) 数据标注工具。
以下哪三种标注类别是该工具支持的?

A. 语义分割
B. 物体检测
C. 分类(单/多标签)
D. 命名实体抽取
E. 关键点和标记
F. 多边形分割

题干含义:
问题要求选择 OCI 数据标注工具支持的三个标注类别,适用于文本和图像数据的标注。

选项分析

  1. A. Semantic Segmentation(语义分割)

    • OCI Data Labeling 当前不支持
  2. B. Object Detection(对象检测)

    • 在图片中通过矩形框框出对象,常用于检测人、动物、物体等。
    • 支持。
  3. C. Classification (single/multi-label)(分类/多分类)

    • 对整体图片或文本分配一个或多个标签,适合分类问题。
    • 支持。
  4. D. Named Entity Extraction(实体识别/抽取)

    • 在文本中选取并标注明确的实体(如人名、地点、组织等)。
    • 支持。
  5. E. Key-Point and Landmark(关键点/地标点标注)

    • 用于人脸关键点、姿态估计等任务,在图片中点击具体点位。
    • OCI Data Labeling 当前不支持
  6. F. Polygonal Segmentation(多边形分割)

    • 用多边形选择复杂轮廓做精细分割。
    • OCI Data Labeling 当前不支持

Annotation Class(标注类别)


1. Annotation Class 总览

Annotation Class(标注类别)是指用户在OCI数据标注平台中选择对图片、文本或文档进行哪种类型的标注方式。根据任务场景不同,提供不同的标注类型。


2. 常用标注类型及说明

  1. Single Labels(单标签分类)

    • 作用:将图片、文本或文档划分到某一个单一类别中。
    • 例子:一张图片只标记为“狗”或“猫”中的一种。
  2. Multiple Labels(多标签分类)

    • 作用:将图片、文本或文档划分为一个或多个类别。
    • 例子:一篇新闻可以同时标记为“体育”和“国际”。
  3. Object Detection(目标检测)

    • 适用对象:仅限于图片。
    • 作用:通过画矩形边框在图片中将目标对象框选出来,常用于识别多个不同物体的位置。
    • 例子:在交通图片中分别框出“汽车”、“行人”、“红绿灯”等。
  4. Entity Extraction(实体抽取/识别)

    • 适用对象:仅限于文本。
    • 作用:高亮文本片段并为每个片段分配类别标签。
    • 例子:在一段话中标出“人名”、“公司”、“位置”等实体类型。
  5. Key Value(关键值抽取)

    • 适用对象:仅限于文档。
    • 作用:利用文档理解和光学字符识别(OCR),自动识别并提取文档内的关键信息(如发票编号、日期、总金额等)。
    • 例子:自动识别并提取发票中的“发票号”和“金额”。

3. 总结

  • 图片:可选单/多标签分类,或目标检测(绘制边框)。
  • 文本:可选单/多标签分类,或实体抽取(高亮、分类文本片段)。
  • 文档:可选单/多标签分类,或关键值抽取(结构化信息自动化提取)。
  • 标注类型须依据实际业务需求选择,确保模型能够获得丰富且准确的监督信号。

Q126

You are a data scientist and have a large number of legal documents that needs to be classified. You decided to use OCI Data Labeling service to get your data labeled.
What are the annotation classes available for annotating documents data using OCI Data Labeling service?

A. Single, Multiple, Key Value
B. Single, Multiple, Entity Extraction
C. Single, Multiple, Object Detection

答案:B

中文翻译题目和选项

作为一名数据科学家,你有大量的法律文档需要分类。你决定使用 OCI 数据标注服务来标注你的数据。
使用 OCI 数据标注服务,哪些标注类可以用于文档数据的标注?

A. 单一、多重、键值
B. 单一、多重、实体提取
C. 单一、多重、目标检测

题干含义:
题目要求鉴别哪些标注类别可以用于通过 OCI 数据标注服务标注文档数据。OCI 数据标注服务被设计用来标记数据以利于分类或模式识别。关键是识别适用于文档数据的标注方式。

选项分析

  • A: 键值标注通常用于结构化数据的标注,如JSON,不太适合大量的非结构化文本文档。
  • B: 实体提取是从文本中获取特定实体的过程,非常适用于处理法律文档这样的未结构化文本数据,因此正确。
  • C: 目标检测通常用于图像数据标注,标注目标的边界框,并不适用于文档数据。

相关知识点总结
关联Q125

  • OCI 数据标注服务:提供多种标注类型,根据数据的性质和标注需求进行选择。
  • 实体提取:主要用于文本处理,用于从文档中识别特定的名词/短语实体,例如人名、地名、组织名等。
  • 实际应用推荐:对于处理大量文档数据,选择正确的标注方式至关重要,应根据数据特点选择合适的标注类型如实体提取。

Q127

For your next data science project, you need access to public geospatial images.
Which Oracle Cloud service provides free access to those images?

A. Oracle Big Data Service
B. Oracle Cloud Infrastructure Data Science
C. Oracle Analytics Cloud
D. Oracle Open Data

答案:D

中文翻译题目和选项

对于下一个数据科学项目,你需要访问公共地理空间图像。
哪个 Oracle 云服务可以提供免费访问这些图像?

A. Oracle 大数据服务
B. Oracle 云基础设施数据科学
C. Oracle 分析云
D. Oracle 开放数据

题干含义:
题目要求识别哪个 Oracle 云服务支持免费访问公共地理空间图像。

选项分析

  • A: Oracle 大数据服务侧重于处理和分析大规模数据集,但不专注于提供公共图像访问。
  • B: Oracle 云基础设施数据科学用于提供构建和部署数据科学模型的工具,不专注于图像数据访问。
  • C: Oracle 分析云提供数据分析和可视化服务,适用于内部数据分析。
  • D: Oracle 开放数据是开放数据集的集合,可能包括地理空间图像,因此最可能提供免费访问。(正确答案

相关知识点总结

  • Oracle 开放数据:旨在提供一个开放的数据集集合,研究人员和开发人员可以从中免费访问和使用数据。
  • 公共地理空间图像:常用于地理空间分析和数据科学项目,获取这些图像时通常依赖于开放数据和公共数据资源。
  • 云服务的选择:选择合适的云服务需要考虑其所提供的功能是否能够满足项目需求,例如数据存取、处理和分析能力。

Q128

You are a data scientist leveraging Oracle Cloud Infrastructure (OCI) Data Science to create a model and need some additional Python libraries for processing genome sequencing data.
Which of the following THREE statements are correct with respect to installing additional Python libraries to process the data?

A. You can install any open-source package available on a publicly accessible Python Package Index (PyPI) repository.
B. OCI Data Science allows root privileges in notebook sessions.
C. You cannot install a library that's not preinstalled in the provided image.
D. You can only install libraries using yum and pip as a normal user.
E. You can install private or custom libraries from your own internal repositories.

答案:A, D, E

中文翻译题目和选项

作为数据科学家,你利用 Oracle 云基础设施(OCI)数据科学来创建模型,并需要一些附加的 Python 库来处理基因组测序数据。
以下哪些陈述对于安装附加的 Python 库以处理数据是正确的?

A. 你可以安装任何在公共访问的 Python 软件包索引(PyPI)存储库中可用的开源软件包。
B. OCI 数据科学在笔记本会话中允许 root 权限。
C. 你不能安装不在提供镜像中预安装的库。
D. 你只能以普通用户身份使用 yum 和 pip 安装库。
E. 你可以从自己的内部存储库安装私有或自定义库。

题干含义:
题目讨论在使用 OCI 数据科学时安装附加 Python 库的相关限制和权限问题。

选项分析

  1. A. 你可以安装任何在公开可访问 PyPI(Python 包索引)上的开源包。
    • 解释:正确 OCI Data Science 支持用户通过 pip 安装公开 PyPI 上的任何包。这是常规的包获取方式。
  2. B. OCI Data Science 允许 notebook 会话中拥有 root 权限。
    • 解释:不正确。OCI Data Science 的 notebook session 默认不具备 root 权限,通常只能作为普通用户安装包。
  3. C. 你无法安装未预装在镜像中的库。
    • 解释:错误。用户可以自由安装除镜像内预装外的其它库(只要权限允许),不局限于预装内容。
  4. D. 只能作为普通用户用 yum 和 pip 安装库。
    • 解释:正确。因为没有 root 权限,只能以普通用户身份用 pip 或 yum --user 方式装库。
  5. E. 你可以从自己的内部仓库安装私有或自定义的库。
    • 解释:正确。用户可以配置 pip 指向内部自有源或通过 wheel/dist 安装私有库。

相关知识点总结

  • OCI Data Science notebook session 默认以普通用户运行,无 root/sudo 权限。
  • 可以用 pip 安装 PyPI 上开源第三方包,也可配置内部源或安装本地私有包。
  • 预装镜像外的包允许用户自行安装,充分支持开发需求。

Q129

You need to make sure that the model you have deployed using AI Quick Actions is responding with suitable responses.
How can AI Quick Actions help here?

A. By fine-tuning the model
B. By evaluating the model
C. By deploying the model

答案:B

中文翻译题目和选项

你需要确保使用 AI 快捷操作部署的模型正在响应合适的回答。
AI 快捷操作如何帮助这项工作?

A. 通过微调模型
B. 通过评估模型
C. 通过部署模型

题干含义:
题目关注的是如何通过 AI 快捷操作来保证模型响应的适切性和准确性。

选项分析

  • A: 微调模型是优化模型的一种手段,但题目重点在确认响应有效性。
  • B: 评估模型是检查模型功能和响应是否合乎预期的一种重要手段,符合要求。
  • C: 部署模型是将模型上线的过程,与确认响应适切性不直接相关。

相关知识点总结
Q50

  • AI 快捷操作:允许快速执行常见任务,这可能包括模型的评估和监控。
  • 模型评估:在模型上线后,通过测试和验证来确认模型的准确性、响应速度和适用性。
  • 保证模型适切性:通过不断评估和监控可以确认模型在实际应用中的表现,及时做出相应调整。

Q130

Select two reasons why it is important to rotate encryption keys when using Oracle Cloud Infrastructure (OCI) Vault to store credentials or other secrets.

A. Key rotation allows you to encrypt no more than five keys at a time.
B. Periodically rotating keys limits the amount of data encrypted by one key version.
C. Key rotation reduces risk if a key is ever compromised.
D. Periodically rotating keys make it easier to reuse keys.
E. Key rotation improves encryption efficiency.

答案:B, C

中文翻译题目和选项

选择为何在使用 Oracle 云基础设施(OCI)保险库储存凭据或其他机密信息时,重要的两个密钥轮换原因。

A. 密钥轮换允许你一次加密不超过五个密钥。
B. 定期轮换密钥限制了单个密钥版本加密的数据量。
C. 密钥轮换降低了密钥被攻破的风险。
D. 定期轮换密钥使得密钥重复利用更容易。
E. 密钥轮换提高了加密效率。

题干含义:
题目要求识别出在使用 OCI Vault 储存敏感信息时,密钥轮换的重要原因。

选项分析

  • A: 描述不准确,与密钥轮换不直接相关。
  • B: 限制单个密钥版本加密的数据量,以减少在密钥泄露时的潜在危害。
  • C: 通过定期更换密钥,降低了一个密钥长时间使用被攻破的风险。
  • D: 定期轮换实际上不便于密钥重复使用。
  • E: 提高加密效率通常不被认为是密钥轮换的直接效果。

OCI Vault 密钥生命周期管理

  • OCI Vault 支持密钥轮换(rotation),自动生成新版本
    • 版本控制:加密/签名时用当前版本,解密时 Vault 自动追溯找到曾用的旧版本
    • 轮换好处:减少密钥泄漏影响范围,提升数据安全性和合规性

Q131

As a data scientist, you have stored sensitive data in a database. You need to protect this data by using a master encryption algorithm, which uses symmetric keys.
Which master encryption algorithm would you choose in the Oracle Cloud Infrastructure (OCI) Vault service?

A. Elliptical Curve Cryptography Digital Signature Algorithm
B. Triple Data Encryption Standard Algorithm
C. Rivest-Shamir-Adleman Keys
D. Advanced Encryption Standard Keys

答案:D

中文翻译题目和选项

作为一名数据科学家,你在数据库中存储了敏感数据。你需要使用对称密钥的主加密算法来保护这些数据。
在 Oracle 云基础架构(OCI)保管库服务中,你会选择哪种主加密算法?

A. 椭圆曲线加密数字签名算法
B. 三重数据加密标准算法
C. Rivest-Shamir-Adleman 密钥
D. 高级加密标准密钥

题干含义:
题目要求选择一种使用对称密钥的主加密算法,用于保护数据库中的存储数据。

选项分析

  • A: 椭圆曲线加密通常用于公钥加密和数字签名,不是对称加密。
  • B: 三重数据加密标准是一种对称加密标准,但它已经不如 AES 安全和高效。
  • C: RSA 是非对称加密算法,而题目要求使用对称密钥。
  • D: 高级加密标准(AES)是一种广泛使用的强大对称加密标准,非常适合选择来保护敏感数据。(正确答案

相关知识点总结

  • 对称加密:使用相同的密钥进行加密和解密,比非对称加密速度快且更适合大数据量。
  • 高级加密标准(AES):被广泛认为是目前最安全的对称加密算法之一,因此常用于数据保护中。
  • OCI 保管库服务:提供密钥管理和数据加密服务,支持使用 AES 等算法来保护应用和数据。
  • 加密算法选择:在选择加密算法时,应考虑算法的安全强度、效率以及对工作负载的适用性。

Q132

You are a data scientist working for a manufacturing company. You have developed a forecasting model to predict the sales demand in the upcoming months. You created a model artifact that contained custom logic requiring third-party libraries.
When you deployed the model it failed to run because you did not include all the third party dependencies in the model artifact.
What file should be modified to include the missing libraries?

A. requirements.txt
B. score.py
C. runtime.yaml
D. model_artifact_validate.py

答案:A

中文翻译题目和选项

你是一位为制造公司工作的数据科学家。你开发了一个预测模型来预测未来几个月的销售需求。你创建了一个包含需要第三方库的自定义逻辑的模型工件。
当你部署模型时,它未能运行,因为你没有在模型工件中包括所有第三方依赖项。
应修改哪个文件来包含缺失的库?

A. requirements.txt
B. score.py
C. runtime.yaml
D. model_artifact_validate.py

题干含义:
题目描述在部署模型时由于缺少第三方库依赖导致运行失败的问题,询问如何解决这个问题。

选项分析

  • A: requirements.txt 文件用于列出 Python 项目的所有依赖库及其版本,缺少的第三方库依赖需在此文件中添加。
  • B: score.py 通常用于定义模型的评分逻辑,未涉及依赖管理。
  • C: runtime.yaml 用于配置运行时环境的设置,通常不直接管理 Python 包依赖。
  • D: model_artifact_validate.py 可能用于验证模型工件的正确性,与依赖声明不直接相关。

相关知识点总结

  • 项目依赖管理requirements.txt 是管理 Python 项目依赖的标准文件,列出所需的所有 package 及其版本。
  • 模型部署准备:确保在模型部署前测试和确认所有依赖均正确引用和安装,这是避免运行时错误的关键。
  • 环境配置和部署:对于不同的环境或平台,依赖管理非常关键,保证所有环境具备一致性极为重要。

Q133

You are a data scientist working for a utilities company. You have developed an algorithm that detects anomalies from a utility reader in the grid. The size of the model artifact is about 2 GB, and you are trying to store it in the model catalog.
Which three interfaces could you use to save the model artifact into the model catalog?

A. Git CLI
B. Console
C. OCI Python SDK
D. Oracle Cloud Infrastructure (OCI) Command Line Interface (CLI)
E. Accelerated Data Science (ADS) Software Development Kit (SDK)
F. Data Science Continuous Integration (ODSC) CLI

答案:B, C, D

中文翻译题目和选项

你是一名为公用事业公司工作的数据科学家。你开发了一种算法,用于检测电网中公用事业读取器的异常。模型工件的大小约为2GB,你正在尝试将其存储在模型目录中。
你可以使用哪三种接口将模型工件保存到模型目录中?

A. Git 命令行界面(CLI)
B. 控制台
C. OCI Python 软件开发工具包(SDK)
D. Oracle 云基础设施(OCI)命令行界面(CLI)
E. 加速数据科学(ADS)软件开发工具包(SDK)
F. 数据科学持续集成(ODSC)CLI

题干含义:
题目询问使用哪些接口可以将大型模型工件存储到模型目录中。

选项分析

  • A: Git 命令行客户端主要用于管理代码版本控制,不适用于直接保存模型文件到云目录。
  • B: 使用 Oracle 控制台进行模型管理和目录存储是直接且常用的方式,可以通过图形界面操作(正确答案)。
  • C: OCI Python SDK 提供许多操作云资源的功能,模型目录包含Python脚本(score.py)(正确答案)。
  • D: OCI 命令行客户端是另一种与云端交互的方式,支持文件上传和下载操作,可以用来存储模型文件(正确答案)。
  • E: ADS SDK 在模型开发和分析上提供支持,但直接存储到模型目录通常通过 OCI SDK 或 CLI 完成,而非直接通过 ADS SDK。
  • F: 数据科学连续集成命令行客户端可以帮助在构建过程中自动化,但不直接用于发布模型文件到模型目录。

Oracle云基础设施(OCI)数据目录

OCI数据目录 是Oracle生态系统内部的元数据管理服务,帮助数据消费者进行数据发现和治理。它作为具有业务背景的数据资产清单和湖仓统一元数据存储的一部分,随OCI订阅免费提供。

为什么需要OCI数据目录?

没有数据目录,分析中找到可靠数据会变得困难。数据消费者依赖有经验的用户和不完整的社区知识,而数据提供者则面临消费者重复的询问,导致解决方案低效且不可靠。OCI数据目录提供了管理和组织元数据的协作环境,提高了整个组织的数据认识度,并改善了混合和多云环境中的数据治理。

OCI数据目录的工作原理

OCI数据目录将技术和业务元数据转化为可搜索的清单,让数据消费者能理解可用数据。该过程包括:

  1. 技术元数据采集:直接从数据源收集如表名、数据类型等数据特性。
  2. 业务元数据丰富:通过数据专家提供的术语库、分类、注解添加业务背景。
  3. 搜索与探索:允许数据消费者使用技术和业务术语进行数据过滤和探索。
  4. 数据湖元存储:为OCI数据流用户提供元数据,支持由OCI对象存储的数据湖文件。
  5. 自主数据库集成:使用采集的元数据自动创建自主数据库中的外部表。

关键功能

  • 技术元数据采集:支持多种数据源,如Oracle数据库、MySQL、SQL Server、Azure SQL、PostgreSQL。采集可以按需或定期进行。
  • 数据湖元数据:逻辑实体帮助有意义地组织数据湖文件,避免数据沼泽。
  • 业务元数据管理:通过自定义属性、术语库和自由标签增强技术元数据的业务意义。

元数据丰富工具

  • 自定义属性:用户定义的带有业务意义的元数据属性,辅助搜索功能。
  • 业务术语库:用于业务术语的管理词汇,支持创建分类法和构建数据资产关系。
  • 自由标签:无需预定义意义的快速注解,补充自定义属性和术语库。

数据目录元存储

对于OCI数据流用户来说,作为存储和共享不同应用程序和Spark运行之间的元数据的中央仓库,改善协作和重用性。

数据目录API和SDK

提供REST API和SDK,支持多种编程语言的集成,扩展数据目录的功能。

结论

OCI数据目录是Oracle云数据管理战略的基础,帮助从Oracle生态系统中的数据中获得价值。它与自主数据库无缝集成,并作为数据湖架构的中央仓库。该服务安全、无服务器且随OCI免费提供,鼓励轻松探索数据的潜力。立即探索OCI数据目录,发现您的数据价值所在。

Q134

You train a model to predict housing prices for your city. Which two metrics from the Accelerated Data Science (ADS) ADSEvaluator class can you use to evaluate the regression model?

A. Weighted Recall
B. Explained Variance Score
C. Weighted Precision
D. Mean Absolute Error
E. F-1 Score

答案:B, D

中文翻译题目和选项

你训练了一个模型来预测你所在城市的房价。可以使用加速数据科学(ADS)中的 ADSEvaluator 类中的哪两个指标来评估回归模型?

A. 加权召回率
B. 解释方差得分
C. 加权精确率
D. 平均绝对误差
E. F-1 得分

题干含义:
题目要求选择适用于评估回归模型的指标。

选项分析

  • A: 加权召回率适用于分类问题,不适用于回归模型。
  • B: 解释方差得分用于衡量模型解释目标变量方差的程度,适用于回归评价。
  • C: 加权精确率也适用于分类问题。
  • D: 平均绝对误差评估预测值与真实值之间的平均绝对差异数值,适用于回归模型。
  • E: F-1 得分专用于权衡分类模型的召回率和精确率。

选择模型评价指标

选择对的模型评价指标就像选择测量工具来评估你的成果。在这个过程中,你需要考虑你在做什么类型的预测,以及你的最终目标是什么。

一、回归问题

对于回归问题,我们预测的是连续值,比如房价或者温度。这时你可以用:

  1. 平均绝对误差 (MAE)

    • 就像你测量每次预测的误差,然后取它们的平均值。数值越小越好,说明预测的误差越小。
  2. 均方误差 (MSE)

    • 这是误差的平方的平均值,对大的误差更敏感。也就是,你不喜欢大错误时可以用这个,但可能会被极端值左右。
  3. 解释方差 (Explained Variance)

    • 它告诉你模型有多好地解释了数据的变化。数值越接近 1,表示预测结果越好。
  4. R²(决定系数)

    • 就是衡量模型有多好解释了数据中的变化。越接近1越说明你的模型好。

二、分类问题

如果你的任务是分类,比如判断邮件是不是垃圾邮件,你可以考虑用:

  1. 准确率 (Accuracy)

    • 简单易懂,看正确的比率。但在数据不平衡时(比如正例远少于负例),作用有限。
  2. 精度 (Precision)

    • 它看的是在所有被标记为正例的预测中,有多少是真的。这很重要,特别是错误的正例代价高时。
  3. 召回率 (Recall)

    • 它看看所有真实存在的正例中,你找到了多少。特别适合需要确保发现所有正例的情况。
  4. F1 值 (F1-score)

    • 是精度和召回率的一个折中值,数据不平衡时是个好选择。
  5. AUC-ROC

    • 用来测量模型区分正负例的能力,分数越高表示模型越出色。

三、选择指标时要考虑的

  • 数据平衡性:在数据不平衡时,准确率可能会误导,像是让A队总是输给B队,而不计算细节。这时,F1值就派上用场了。

  • 业务需求:对于不同行业,可能会关注不同错误产生的后果是谁。“召回率”更关心找到所有对的答案,“精度”则关心保证自己的猜测正确。

  • 结果偏好:你是更不希望错过正例(用召回率好),还是想减少误判正例(用精度好)?

Q135

As a data scientist, you create models for cancer prediction based on mammographic images. The correct identification is very crucial in this case. After evaluating two models, you arrive at the following confusion matrix:

  • Model 1: Test accuracy is 80% and recall is 70%.
  • Model 2: Test accuracy is 75% and recall is 85%.

Which model would you prefer and why?

A. Model 2, because recall is high.
B. Model 1, because the test accuracy is high.
C. Model 2, because recall has more impact on predictions in this use case.
D. Model 1, because recall has lesser impact on predictions in this use case.

答案:C

中文翻译题目和选项

作为数据科学家,你开发了基于乳腺X线图像的癌症预测模型。在这种情况下,正确识别极为重要。在评估两个模型后,得到以下混淆矩阵:

  • 模型1:测试准确率为80%,召回率为70%。
  • 模型2:测试准确率为75%,召回率为85%。

你应该选择哪个模型以及原因是什么?

A. 模型2,因为召回率较高。
B. 模型1,因为测试准确率较高。
C. 模型2,因为召回率在此使用场景中对预测影响更大。
D. 模型1,因为召回率对预测影响较小。

题干含义:
题目讨论在癌症预测场景中,哪种指标更优先考虑以及如何选择模型。

选项分析

  1. A: 选择模型2仅因为召回率高,尽管准确率稍低,但是高召回率更重要。
  2. B: 选择模型1因为测试准确率高,但是适用于一般情况,对于此用例不一定合适。
  3. C: 在癌症预测中,高召回率意味着更少漏诊,同时召回率85%比模型1高东10%且至关重要,避免错过癌症患者,有潜在提升预测质量的优势。(正确答案
  4. D: 认为召回率影响较小与现实不符,尤其在癌症筛查中,因为漏诊可能导致后果严重,应尽量避免。

召回率(Recall)

  • 定义: 召回率是模型在所有实际为正类的样本(如癌症患者)中正确识别出的比例。
  • 公式: 召回率 = 真正例数 / (真正例数 + 假负例数)
  • 例子: 想象在100个实际癌症患者中,模型识别出85个,则召回率是85%。

召回率高意味着模型能够更好地捕获应该被识别为正类的重要情况(如疾病诊断),优先考虑降低漏诊风险。

准确率(Accuracy)

  • 定义: 准确率是模型在所有样本中,正确分类样本所占的比例。
  • 公式: 准确率 = (真正例数 + 真负例数) / 总样本数
  • 例子: 在1000个样本中,若800个分类正确,准确率为80%。

准确率高并不总是意味着模型性能优良,特别是在不平衡数据情境中, 可能误导。

为什么优先考虑高召回率

  • 医疗诊断重要性: 在如癌症筛查等临床应用中,漏诊遗漏任何一个真正病例可能导致严重后果。召回率高优先捕获更多潜在病例,宁可容忍假阳性(误识为阳性)。
  • 漏诊成本高: 漏诊,即将实际患者判定为健康,可能延误治疗或带来更严峻后果。
  • 应用情景: 在病患诊断、故障检测中,相较准确率,召回率更能代表模型发现问题的能力。

对于问题的高敏感性场景,如疾病筛查和重要故障检测,高召回率常被优先考虑,以保证不遗漏关键事件。

Q136

What is the purpose of continuous training in MLOps?

A. To manually update software systems
B. To eliminate the need for data validation
C. To replace DevOps practices
D. To retrain machine learning models for redeployment

答案:D

中文翻译题目和选项

在 MLOps 中,持续训练的目的是什么?

A. 手动更新软件系统
B. 消除数据验证的需要
C. 取代 DevOps 实践
D. 重新训练机器学习模型以便重新部署

题干含义:
题目寻求明确持续训练在 MLOps 流水线中的目的。

选项分析

  • A: 手动更新软件系统与持续训练无关。
  • B: 数据验证依然是保证数据质量的必要步骤,持续训练不能替代该过程。
  • C: DevOps 是软件开发和运维的实践,MLOps 是在此基础上加入了机器学习模型的生命周期管理,两个体系是互补而非替代。
  • D: 通过持续训练,模型能够不断适应新的数据变化和业务需求,以保持其预测效力和准确性。

相关知识点总结

  • 持续训练:在机器学习生命周期中不断根据新数据更新模型,使其保持最佳性能。
  • MLOps:即机器学习运维,通过自动化和改进模型开发到部署整个过程,确保模型快速可靠地交付与更新。
  • 模型重新训练:随着数据分布变化或新数据引入,有必要周期性更新模型以适应新的环境和预测需求。
  • 协调 DevOps 实践:MLOps 是 DevOps 高效协作概念的扩展和应用,专注于模型治理和生命周期管理。

Q137

You are a data scientist trying to load data into your notebook session. You understand that Accelerated Data Science (ADS) SDK supports loading various data formats.
Which of the following THREE are ADS supported data formats?

A. Pandas DataFrame
B. DOCX
C. JSON
D. Raw Images
E. XML

答案:A, C, D

中文翻译题目和选项

你是一名数据科学家,正在尝试将数据加载到你的笔记本会话中。你了解到加速数据科学(ADS)SDK支持加载各种数据格式。
以下哪三种是ADS支持的数据格式?

A. Pandas 数据框
B. DOCX
C. JSON
D. 原始图像
E. XML

题干含义:
问题询问加速数据科学 (ADS) SDK 支持的三种数据格式,使用户能加载数据进行分析。

选项分析

  • A: Pandas 数据框是 Python 中常用的数据结构,便于处理表格数据,并被 ADS SDK 支持。
  • B: DOCX 是文档格式,ADS 更常用于结构化数据的分析,非文档处理。
  • C: JSON 是常用的轻量级数据交换格式,广泛用于数据传输和储存,ADS SDK 支持。
  • D: 原始图像可用于计算机视觉及图片处理任务,ADS SDK 通常支持这些数据载入。
  • E: XML 也用于数据交换,但 ADS 支持主要集中在 Pandas 数据框、JSON 等直接与数据科学、分析相关的格式。

相关知识点总结

  • ADS SDK 数据格式支持:主要适用于数据科学常用格式,便于数据读取与处理,包括结构化数据、半结构化数据以及图像数据。
  • Pandas 和 JSON:广泛应用于数据分析和机器学习管道中,提供丰富的处理工具。
  • 图像数据处理:ADS 也常被用于应用机器学习进行图像分析任务。

Q138

During a job run, you receive an error message that no space is left on your disk device. To solve the problem, you must increase the size of the job storage.
What would be the most efficient way to do this with Data Science Jobs?

A. On the job run, set the environment variable that helps increase the size of the storage.
B. Edit the job, change the size of the storage of your job, and start a new job run.
C. Create a new job with increased storage size and then run the job.
D. Your code is using too much disk space. Refactor the code to identify the problem.

答案:B

中文翻译题目和选项

在作业运行时,你收到一条错误信息,提示磁盘设备上没有剩余空间。要解决此问题,你必须增加作业存储的大小。
使用数据科学作业最有效的方法是什么?

A. 在作业运行时,设置环境变量以帮助增加存储大小。
B. 编辑作业,改变作业的存储大小,并启动新的作业运行。
C. 创建一个具有更大存储大小的新作业,然后运行该作业。
D. 你的代码使用了太多磁盘空间。重构代码以识别问题。

题干含义:
题目描述如何在数据存储空间不足的情况下最有效地调整作业存储大小。

选项分析

  1. A: 设置环境变量通常用于配置运行时环境和参数,但不会直接影响存储大小。
  2. B: 编辑现有作业以调整存储大小是直接解决问题的方法,然后再运行新的作业,避免创建新作业带来的重复工作。(正确答案
  3. C: 创建新作业不仅需要调整存储,还要复制所有相关的配置和代码,冗余且耗时。
  4. D: 重构代码可以解决不必要的内存使用问题,但不一定能立即解决存储空间不足。

相关知识点总结

  • 存储调整 是解决磁盘空间不足问题的直接方式,尤其是在运行大型数据科学作业时。
  • 编辑现有设置更为便捷,且维持所有作业参数一致是最佳实践。
  • 创建新作业仅适合于改变作业本身的设计,而非日常调整存储时。

Q139

While reviewing your data, you discover that your data set has a class imbalance. You are aware that the Accelerated Data Science (ADS) SDK provides multiple built-in automatic transformation tools for data set transformation.
Which would be the right tool to correct any imbalance between the classes?

A. auto_transform()
B. suggest_recommendations()
C. visualize_transform()
D. sample()

答案:D

中文翻译题目和选项

在查看数据时,你发现数据集中存在类别不均衡的情况。你了解到加速数据科学(ADS)SDK 提供用于数据集转换的多个内置自动转换工具。
哪一种工具适合用于校正类别之间的不平衡?

A. auto_transform()
B. suggest_recommendations()
C. visualize_transform()
D. sample()

题干含义:
题目询问使用哪种工具可以解决数据集中的类别不平衡问题。

选项分析

  1. A: auto_transform()用于自动进行一系列常见的数据集转换操作,但不专门用于针对类别不平衡问题。
  2. B: suggest_recommendations()用于建议应用于数据集的转换方法,但不直接执行任何变换,尤其是不处理不平衡类。
  3. C: visualize_transform()用于可视化数据转换的影响,没有直接纠正不平衡的功能。
  4. D: sample()用于对数据集样本重新采样,可以通过过采样或欠采样技术来纠正类别不平衡。(正确答案

相关知识点总结

  • 类别不平衡问题常见于分类问题中,当一个类的样本数量远远多于其他类时,会影响模型的训练效果。
  • 过采样欠采样是解决类别不平衡的常用方式。过采样通过增加少数类的样本数量来平衡;欠采样通过减少多数类的样本数量来平衡。
  • 在使用工具时,理解其适用场景和功能是避免误用或忽视潜在问题的关键。
  • 在ADS SDK中,sample()函数可以帮助人工调整样本比例以达到所需的平衡效果。

Q140

As a data scientist, you are working on a global health data set that has data from more than 50 countries. You want to encode three features such as 'countries', 'race' and 'body organ' as categories.
Which option would you use to encode the categorical feature?

A. DataFrameLabelEncoder()
B. OneHotEncoder()
C. show_in_notebook()
D. auto_transform()

答案:B

中文翻译题目和选项

作为数据科学家,你正在处理一个来自50多个国家的全球健康数据集。你想将'国家'、'种族'和'身体器官'等三个特征编码为类别。
你会选择哪种选项来对类别特征进行编码?

A. DataFrameLabelEncoder()
B. OneHotEncoder()
C. show_in_notebook()
D. auto_transform()

题干含义:
题目询问选择哪种编码方式适合将类别特征进行有效的数值化表示。

选项分析

  1. A: DataFrameLabelEncoder(),这不是一个标准的编码器类名,通常没有数据框架标签编码器这种工具。
  2. B: OneHotEncoder(),这是用于对分类特征进行一热编码的常用方法,适合处理多类别。每个类别生成一个新的二进制列。
  3. C: show_in_notebook(),通常用于显示数据或图表,与特征编码无关。
  4. D: auto_transform(),这不是标准的编码工具,泛指自动化数据转换,具体功能不详。

类别特征编码

类别特征编码是处理分类数据的一种技术,主要用于将非数值的类别特征转换成模型能够理解的数值形式。以下是常见的类别特征编码方法:

  • 标签编码(Label Encoding) :
    将每个类别值分配为一个唯一的整数。例如,将颜色特征{'红': 0, '绿': 1, '蓝': 2}。
    优点:简单直观。
    缺点:可能引入类别间的顺序关系,这对某些模型可能不合适。

  • 独热编码(One-Hot Encoding) :
    为每个类别创建一个新的二进制特征。每个样本仅在其所属类别的特征列中为1,其余为0。
    有效删除了类别之间的顺序问题。
    缺点:当类别数目很大时会生成高维数据(多列),可能导致稀疏矩阵。

  • 二值编码(Binary Encoding) :
    先将类别转换为整数,再将这些整数转换为二进制代码。
    将二进制编码的每个位作为一个新特征。
    优点:比独热编码占用更少的空间。

  • 频率编码(Frequency Encoding) :
    用每个类别出现的频次或者相对频率来替代类别标签。
    适合于类别很多且有明确的频率分布规律的特征。

  • 目标编码(Target Encoding) :
    用每个类别对应于目标变量的平均值来代替类别标签。
    经常用于存在序列关系的特征。
    需要谨慎处理防止数据泄漏(避免将目标变量信息泄露到训练集中)。

  • 特征嵌入(Feature Embedding) :
    使用深度学习模型(如嵌入层)来学习和提取类别特征的数值表示。
    适用于文本或其他复杂类别数据。

Q141

A team notices that their autoscaling system is making too many scaling adjustments in a short time frame, causing instability.
What feature can help mitigate this issue?

A. Static resource allocation
B. Cooldown periods
C. Custom NQL expressions
D. Load balancer

答案:B

中文翻译题目和选项

一个团队注意到他们的自动扩容系统在短时间内进行了过多的调整,导致系统不稳定。
哪个功能可以帮助减轻这一问题?

A. 静态资源分配
B. 冷却期
C. 自定义 NQL 表达式
D. 负载均衡器

选项分析

  • A: 静态资源分配不能及时适应负载变化,与自动扩展的目标相悖。
  • B: 冷却期设置在自动扩容调整后的一段闲置期,避免频繁检测并减少快速调整的次数,能有效缓解不稳定问题。
  • C: 自定义 NQL 表达式主要用于自定义查询和数据提取,不适用解决自动扩展问题。
  • D: 负载均衡器可分配资源流,但不能直接限制自动缩放频率。

相关知识点总结

  • 自动扩展系统:依赖负载需求自动调整资源,以保证资源利用效率和应用性能。
  • 冷却期设置:通过延迟下次扩展调整, 控制更改频率避免频繁熔断。通常为减轻资源抖动的最佳实践。
  • 扩展管理:确保调整设置既能快速响应负载变化,又不会因过度调整引起系统不稳定。

Q142

You are deploying a machine learning model on Oracle Data Science and decide to use metric-based autoscaling to manage resources efficiently. You set the autoscaling policy to trigger when CPU utilization exceeds 70% for five consecutive monitoring intervals.
The cool-down period is set to 10 minutes. During peak usage, the CPU utilization hits 75% for six consecutive intervals, triggering the autoscaling event.
What will happen immediately after the autoscaling event is triggered?

A. The system will immediately trigger another autoscaling event if CPU utilization exceeds 70%.
B. The model deployment will return to its original size after the cool-down period.
C. The cool-down period will prevent any performance metrics from being evaluated.
D. The cool-down period will begin, and no further autoscaling events will be triggered for 10 minutes.

答案:D

中文翻译题目和选项

你在 Oracle 数据科学上部署机器学习模型,并决定使用基于指标的自动扩展策略来高效管理资源。你设置自动扩展策略,当 CPU 利用率超过70%并持续五个监控周期时触发扩展事件。
冷却期设置为10分钟。在高峰使用期间,CPU使用率达到了75%,持续六个周期,触发了自动扩展事件。
自动扩展事件触发后,会立即发生什么?

A. 如果 CPU 使用率超过70%,系统会立即触发另一个自动扩展事件。
B. 冷却期结束后,模型部署将恢复到原始大小。
C. 冷却期会阻止任何性能指标的评估。
D. 冷却期会开始,并且在10分钟内不会触发进一步的自动扩展事件。

题干含义:

  • 基于指标的自动扩展(Metric-based Autoscaling) :是一种根据特定性能指标(如CPU利用率)的变化,来自动地调整计算资源的机制。
  • 触发条件:设置的自动扩展策略是当CPU利用率连续五个监控周期超过70%时触发扩展。
  • 冷却时间(Cool-down Period) :指的是在执行自动扩展操作后,让系统有一段时间保持不变,不会再进行新的扩展或缩减操作。在这里,冷却时间被设置为10分钟。
  • 峰值使用情况(Peak Usage) :在高负载期间,CPU利用率连续六个监控周期达到75%,这超过了设定的触发条件(70%),因此触发了自动扩展事件。

选项分析

  • A: 冷却期开始后,即使利用率高于触发点,也不会立即触发新的扩展事件。
  • B: 模型不会因冷却期自动恢复到原始大小,冷却期与资源回缩无关。
  • C: 性能指标评估仍会进行,冷却期只影响扩展事件的频率。
  • D: 冷却期开始后,系统将在规定时间内阻止进一步扩展的触发,目的是避免频繁调整对系统稳定性的影响。

相关知识点总结

  • 自动扩展策略:基于资源使用指标(如CPU利用率)自动调整资源分配。
  • 冷却期设置:防止过于频繁的扩展操作导致系统抖动和不稳定。
  • 资源调整管理:合理设置触发条件和冷却期可优化系统性能,降低稳定性风险。

Q143

考试重点还包括了automl的步骤,建议记忆一下
看Q16知识拓展

Q144

Q145

Q146

Q147

Q148

Q149

Q150

posted @ 2025-07-09 17:16  sekkoo  阅读(610)  评论(0)    收藏  举报