Oracle Database 23ai 新特性系列 —— 第二期
Oracle Database 23ai 新特性系列 —— 第二期:数据库内机器学习、图技术与湖仓一体
在第一期中,我们重点介绍了 Oracle Database 23ai 的 AI 向量搜索、JSON 关系二元性视图等划时代技术。如果说 AI Vector Search 赋予了数据库“感知”和理解语义的能力,那么本期介绍的数据库内机器学习(In-Database ML)、图技术(Graph)与湖仓一体(Lakehouse)等特性,则赋予了数据库“思考”、分析和自主优化的能力。
Oracle 在机器学习领域的布局已有超过 20 年的历史——从 Oracle 9i R2 首次提供内置数据挖掘功能,到如今已发展成为企业级数据科学和 AI 平台的核心支柱。而在 23ai 版本中,Oracle Machine Learning(OML)迎来了一次质的飞跃,数据库内机器学习不再只是“能用”,而是向着“好用”和“智能”全面进化。
一、数据库内机器学习(In-Database Machine Learning)
1.1 核心理念:“零数据迁移”的 AI 范式
在传统的企业 AI 架构中,数据科学家通常需要将数据从生产数据库导出,经过复杂的 ETL 流程,导入到独立的机器学习平台或 Python 环境中进行模型训练和预测。这一过程伴随着几个难以解决的痛点:
- 数据时效性缺失:导出、转换、再导入的流程可能耗时数小时甚至数天,模型训练时使用的已是“过期数据”
- 安全风险与合规挑战:敏感业务数据一旦离开数据库环境,数据主权和审计追踪便难以保障
- 架构复杂与运维成本:多套系统之间需要维护数据同步、版本对齐和权限映射,系统复杂度呈指数级增长
Oracle Database 23ai 彻底改变了这一范式。OML 将 30 多种高性能机器学习算法直接内置于数据库内核,用户可以通过 SQL、Python、R 或低代码界面在数据所在的位置完成探索、准备、建模、评估和部署的全流程。正如 Oracle 所强调的:“AI where the data lives”——AI 能力的部署不再需要将数据从数据库中搬移,而是让智能能力在数据库内部落地。数据在哪,智能就在哪。
1.2 超过 30 种原生算法
Oracle Database 23ai 提供了超过 30 种高性能、可并行化的数据库内机器学习算法,覆盖了企业级数据科学任务的主流需求。这些算法在数据库内核级别实现,利用 Oracle 底层 SQL 引擎的并行处理能力,能够处理 PB 级数据,同时保持对 SQL 标准的完全兼容。
核心算法涵盖以下类别:
| 算法类别 | 包含算法 |
|---|---|
| 分类 | 决策树、逻辑回归、朴素贝叶斯、SVM、随机森林、XGBoost、神经网络 |
| 回归 | 线性回归、多元线性回归、XGBoost(回归)、神经网络回归 |
| 聚类 | K-Means、O-Cluster |
| 关联规则 | Apriori |
| 特征提取 | 非负矩阵分解(NMF)、主成分分析(PCA) |
| 异常检测 | 单类 SVM |
| 时间序列 | 指数平滑方法(ESM) |
1.3 23ai 新增算法:XGBoost、ESM 与 NMF
23ai 在算法库方面实现了显著扩充。其中最受关注的是 XGBoost 算法,它支持分类、回归和生存分析三类任务。XGBoost 作为一种基于梯度提升决策树的集成学习方法,在 Kaggle 等数据科学竞赛中长期占据统治地位,它以高精度、高效率和鲁棒性著称。XGBoost 的原生引入,使 OML 在模型精度上进一步逼近甚至超越 Python 生态的主流机器学习框架。
指数平滑方法(ESM) 是另一项重要补充,专为时间序列预测场景设计。相较于传统的 ARIMA 模型,ESM 对数据平滑性和趋势性变化更为敏感,适合处理带有季节性和趋势成分的业务数据(如销量预测、库存规划、流量预估)。
非负矩阵分解(NMF) 则专注于特征提取和降维,在处理高维稀疏数据(如文本挖掘、推荐系统)时具有独特的优势。
1.4 数据库内评分的智能优化
OML 支持批量评分和实时评分两种模式。在生产环境中部署模型后,只需通过 SQL 查询调用预测算子即可完成评分,无需额外的部署流程。
值得特别强调的是,在 Exadata 和自治数据库上,OML 支持 Oracle Exadata Smart Scan 技术。评分处理可直接卸载到存储层执行,在数据存储端完成预测计算,显著减少了数据传输和 CPU 负载,带来了数量级的性能提升。
二、ONNX 集成:打破生态壁垒
2.1 ONNX:跨平台模型互操作的桥梁
Open Neural Network Exchange(ONNX) 是一种开源的深度学习模型表示格式,定义了统一的文件格式和算子集,使得模型可以在不同框架之间自由流转。23ai 的 OML 支持导入 ONNX 格式的机器学习模型,这意味着企业可以在任意环境(如 Hugging Face、PyTorch、TensorFlow、Scikit-learn)中训练模型,然后无缝导入到 Oracle 数据库中运行。
2.2 模型导入与应用
OML 支持导入以下类型的 ONNX 模型:文本嵌入模型(Transformer)、分类模型、回归模型和聚类模型。以 AI Vector Search 为例,企业可以通过 PL/SQL 包 DBMS_DATA_MINING 或 DBMS_VECTOR,将 Hugging Face 上的预训练文本嵌入模型以 ONNX 格式加载到数据库中,作为一等数据库对象供 AI Vector Search 使用。
在 OML4Py 中,Oracle 进一步简化了这一流程,提供了将 Hugging Face 模型自动转换为 ONNX 格式的工具。数据科学家无需关心底层转换细节,只需调用统一 API 即可完成从外部模型到数据库内部署的完整链路。
三、AutoML:让机器学习不再是数据科学家的专属
3.1 AutoML 用户界面
23ai 引入的 AutoML(Automated Machine Learning) 功能,是数据库内机器学习走向平民化的关键一步。OML AutoML UI 是一个零代码自动化机器学习界面,业务分析师和管理人员无需深厚的数据科学背景即可创建和部署机器学习模型。
对于专业数据科学家而言,AutoML UI 同样是强大的生产力工具——通过自动化算法选择、超参数调优和模型评估,可以在极短时间内完成算法和参数空间的初步探索,大幅提升建模效率。
3.2 从自动化到智能化
AutoML 的自动化能力与 23ai 中的模型监控功能形成完整闭环。当模型部署上线后,OML Model Monitoring UI 会持续追踪模型性能指标的变化,并在数据漂移(Data Drift)发生时主动发出告警。这意味着企业可以实时掌握模型的健康状态,在预测准确率下降前及时采取行动(如重新训练),确保 AI 系统始终保持高质量输出。
四、OML4Py:Python 生态与数据库的无缝融合
Python 已成为数据科学领域的事实标准,23ai 中 OML4Py(Oracle Machine Learning for Python)的重大升级,实现了 Python 灵活性与数据库强大计算能力的深度融合。
4.1 数据库内算法支持
OML4Py 新增了对 XGBoost、NMF 和 ESM 三种数据库内算法的 Python API 封装。用户可以通过 oml.xgb、oml.nmf 和 oml.esm 函数直接调用这些高性能库内算法,无需离开熟悉的 Python 环境。
4.2 Hugging Face 模型原生支持
OML4Py 2.0 引入了一项关键能力:从 Hugging Face 直接转换模型为 ONNX 格式。无论是对 Hugging Face Hub 上的公开模型还是经过微调的私有模型,OML4Py 都可以将其自动化转换并导入数据库。这使用户能够充分利用 Hugging Face 生态中成千上万的预训练模型,同时享受 Oracle 数据库的高性能运行环境。
4.3 增强的数据类型支持
OML4Py 新增了对 oml.Datetime、oml.Timezone、oml.Timedelta 和 oml.Integer 等数据类型的支持,使得在数据库内进行复杂的时间序列分析和日期运算更为便捷。对于金融风控、物联网数据处理等高频时序场景,这些增强将显著提升数据预处理的效率。
五、OML4SQL 与 OML4R:面向全场景的 ML 接口
5.1 OML4SQL:SQL 用户的完整 ML 工具链
对于偏好 SQL 的开发者和 DBA,OML4SQL 提供了完整的 PL/SQL 和 SQL API,支持在数据库内完成从数据探索到模型部署的全部流程。
在 23ai 中,OML4SQL 的一个重要增强是 可解释预测(Explanatory Prediction) 功能。当模型对单条数据进行评分时,系统能够给出该预测结果的解释性说明——哪些特征对结果影响最大、影响的方向是什么。这一功能对于需要可解释 AI 的行业(如信贷审批、医疗诊断、保险定价)具有极高的业务价值。
5.2 OML4R:R 语言的大规模分析能力
对于统计学家和 R 语言用户,OML4R(Oracle Machine Learning for R)在 23ai 中也获得了全面升级。OML4R 2.0 支持 R 4.0.5,并新增了对神经网络、随机森林、指数平滑和 XGBoost 等算法的原生支持。
OML4R 的核心价值在于,R 用户可以直接在数据库内对 PB 级数据进行分析,无需将数据导入 R 的内存环境(R 的内存限制一直是处理大数据集的瓶颈)。通过将计算负载推送到数据库内核,OML4R 实现了 R 语法和语义的熟悉性与大数据的可扩展性之间的完美平衡。
六、SQL 属性图(SQL Property Graphs)
图数据库长期以来是 Neo4j 等专用数据库的领地。23ai 首次将图分析能力以 SQL 原生方式内建于 Oracle 数据库之中,终结了“关系型 vs 图数据库”的二选一困境。
6.1 基于 SQL 的属性图
23ai 引入了 SQL 属性图(SQL Property Graph),开发者可以直接在现有的关系表之上创建和查询属性图,而无需将数据导出到外部图数据库。属性图描述节点(顶点)和它们之间的关系(边),顶点和边可以是表、外部表、物化视图或同义词。
6.2 SQL/PGQ 标准查询
SQL 属性图支持 SQL:2023 标准中的 GRAPH_TABLE 和 MATCH 语法,开发者可以使用标准的 SQL 语句编写简单的图查询,轻松追踪数据中的连接关系。Oracle 数据库同时支持 PGQL 和 RDF 等多种图查询语言,为不同背景的开发者提供了灵活的选择。
6.3 实时图分析
SQL 属性图提供实时的图分析能力,可用于社交网络分析、欺诈检测、推荐系统、供应链关系分析等场景。开发者可以利用 Oracle 数据库业界领先的安全、高可用和性能能力,在操作型数据上直接进行实时图分析,而无需额外维护一个独立的图数据库。
七、数据湖与湖仓一体(Lakehouse)
在 23ai 中,Oracle 彻底打破了数据仓库与数据湖之间的壁垒,向“湖仓一体”迈出了关键一步。
7.1 原生 Apache Iceberg 支持
23ai 从版本 23.9 开始原生支持查询 Apache Iceberg 表,能够将存储在对象存储中的 Iceberg 数据视为“一等公民”表进行访问。Iceberg 是一种开放的表格式标准,广泛应用于数据湖场景,Oracle 对其原生支持意味着企业可以将数据湖中的海量数据与数据库中的在线业务数据无缝融合,统一进行查询和分析。
7.2 Autonomous AI Lakehouse
Oracle 在 23ai 之上推出了 Autonomous AI Lakehouse,作为下一代 Autonomous Data Warehouse 的演进版本。它将数据仓库的结构化能力与数据湖的开放格式能力紧密结合,支持对 Iceberg 等开源技术的深度集成。
7.3 Vectors on Ice
2026 年 3 月,Oracle 在伦敦 AI World Tour 上进一步推出了 Vectors on Ice,支持对存储在 Apache Iceberg 表中的向量数据进行原生 AI 搜索。这意味着 AI Vector Search 的能力不再局限于在线业务数据,而是可以延伸到数据湖中存储的海量历史冷数据,实现了业务数据库与数据湖之间统一的向量检索能力。正如分析师 Holger Mueller 所评价的:“这是 Oracle 与其他超大规模云厂商的硬差异化优势”。
八、企业级能力:安全、监控与 MLOps
8.1 模型作为一等数据库对象
在 Oracle Database 23ai 中,机器学习模型被定义为 一等数据库对象(First-Class Database Objects),享有与表、索引相同的安全和管理语义。DBA 可以通过 GRANT/REVOKE 管理模型的访问权限,通过审计功能追踪模型的使用记录,通过 Data Pump 实现模型在不同数据库之间的导入和导出。这意味着机器学习模型可以被纳入企业现有的数据库治理体系,无需额外搭建 MLOps 基础设施。
8.2 OML Model Monitoring UI
OML Model Monitoring UI 是一个零代码模型监控界面,帮助数据科学团队实时跟踪模型性能的变化趋势。系统会持续监控模型的准确率、召回率、F1 分数等关键指标,并在检测到数据漂移(Data Drift)或模型退化时自动告警。用户可以通过可视化界面了解性能变化的原因,并触发模型重新训练。这为大规模生产环境中的模型管理提供了标准化的解决方案。
8.3 与 23ai 安全体系的协同
OML 与 23ai 中新增的安全特性形成了有机协同。SQL Firewall 可以在数据库内核层拦截异常的 SQL 查询,防止未经授权的模型调用或数据访问;而 Deep Data Security 则在行级和列级强制执行用户权限,确保模型仅能看到该用户授权范围内的数据。多层安全机制共同构筑了端到端的防护体系,有效防御数据泄露和越权访问。
九、真实世界价值:OML 的业务成效
OML 的能力已经在全球多个行业中得到验证,产生了可量化的业务价值:
- 英国 NHS 使用 OML 识别出高达 10 亿英镑 的成本节约机会,并为患者提供更个性化的医疗服务
- BBVA 银行 利用 OML 优化营销活动,实现了 40% 的点击率和转化率提升
- Sensa Analytics 通过 OML 将应收账款账期缩短了 39%,显著改善了现金流
- Certegy 借助 Autonomous Database 和 OML 帮助企业最小化损失、防范欺诈
这些成果的核心驱动力正是 OML 的“零数据迁移”范式——在数据所在的数据库中直接进行机器学习,消除数据导出的安全风险、提升模型的实时性,同时大幅简化了架构复杂度。
总结与预告
在本系列第二期中,我们系统解读了 Oracle Database 23ai 在数据库内机器学习、图技术与湖仓一体领域的全面升级:
| 特性维度 | 核心能力 |
|---|---|
| 数据库内算法库 | 30+ 原生算法,新增 XGBoost、ESM、NMF |
| ONNX 集成 | 跨平台模型互操作,Hugging Face 一键转换 |
| AutoML | 零代码自动化建模与调优 |
| OML4Py | Python 生态无缝集成,数据库内算法 Python API |
| OML4SQL | 可解释预测、Exadata Smart Scan 加速 |
| OML4R | R 语言大规模数据分析 |
| SQL 属性图 | SQL 原生图查询、GRAPH_TABLE/MATCH 语法、实时图分析 |
| 湖仓一体 | Apache Iceberg 原生支持、Autonomous AI Lakehouse、Vectors on Ice |
| 模型监控 | 自动化数据漂移检测与告警 |
| 企业安全 | 模型作为一等数据库对象,与 SQL Firewall、Deep Data Security 协同 |
数据库内机器学习的本质,是让智能与数据在同一平台上共生——数据无需离开最安全的地方,就能产生实时的洞察和预测。正如 OML 团队所倡导的,这不只是技术上的便捷,更是 AI 民主化在企业级环境中的落地:数据科学家、业务分析师和 DBA 可以在统一的平台上协作,将 AI 从实验项目推向生产级的规模化应用。
下期预告:第三期我们将聚焦于 Oracle Database 23ai 的 True Cache 高可用架构、全球分布式数据库与 RAFT 复制、SQL 性能优化与自动调优 等领域的前沿特性,敬请期待!
参考资料
[1] Oracle Machine Learning 产品主页 (www.oracle.com)
[2] Announcing New Oracle Machine Learning Features in Oracle Database 23ai (blogs.oracle.com)
[3] Oracle数据库23ai系列专题:数据库内机器学习详解 (www.modb.pro)
[4] Oracle Machine Learning for Python 2.0 User's Guide (docs.oracle.com)
[5] Oracle Machine Learning for SQL Release 26 Documentation (docs.oracle.com)
[6] Oracle Machine Learning for R 2.0 User's Guide (docs.oracle.com)
[7] Using Vector Embeddings and Classification Models within OML (ateam-oracle.com)
[8] Get Started with Property Graphs in Oracle Database 23ai (Oracle Blogs)
[9] 在专用 Exadata 基础结构上使用自治 AI 数据库查询 Apache Iceberg 表 (Oracle Docs)
[10] Oracle 23ai 自动索引 Automatic Indexing 介绍 (MetaAge)
[11] 从Oracle 23 AI:又甩开国产数据库几条街 (blog.csdn.net)
[12] 数据库为啥要融合+AI化?甲骨文Oracle 23ai给出了回答 (soft.zhiding.cn)
[13] 32张图看懂Oracle 23ai 技术架构 (www.modb.pro)
浙公网安备 33010602011771号