nextdata

导航

 

人工智能已经跨越了一个根本性的门槛。在计算机历史的大部分时间里,软件都在等待人类的明确指令,执行预定义的逻辑,任务完成后便停止运行。那个时代已经不复存在。

如今的AI系统能够推理复杂问题、评估上下文、做出独立决策,并自主行动以实现目标。它们不再是被动的工具,而是数字系统中的主动参与者。

这种转变不是渐进式的,而是架构层面的。当系统开始自主决策和行动时,我们对运维的所有假设都会改变。监控、安全、问责和控制同时变得更加困难和更加重要。

AgenticOps 的存在,是因为我们部署的系统本质已经改变,我们的运维实践也必须随之改变。

传统软件 vs 智能体系统

传统软件运行在确定性的世界中——给定相同的输入,产生相同的输出,遵循完全由人类编写的逻辑。智能体系统则不同,它们在不确定性下运行,动态适应变化的上下文,并在没有人类直接触发的情况下发起行动。它们不是执行指令,而是解读目标;不是遵循固定路径,而是在决策空间中导航。

这一区别至关重要,因为为确定性系统构建的运维模型假设了可预测性。智能体系统在设计上就违反了这一假设——你无法提前完全枚举它们的行为。这并不意味着它们不安全,而是意味着它们不同。认识到这种差异,是负责任地运维它们的第一步。

从 DevOps 到 MLOps 的局限

DevOps 改变了组织交付软件的方式,引入了持续集成、基础设施即代码、自动化测试和实时监控。DevOps 假设执行路径可以被映射、测试和控制,所有决策逻辑由人类编写,控制流在部署后基本是静态的。这些假设使 DevOps 在传统服务和微服务方面取得了巨大成功,但也定义了它的边界。

MLOps 将 DevOps 扩展到机器学习领域,引入了模型版本控制、训练流水线、特征存储和性能监控。但 MLOps 保留了一个关键假设:模型是组件,而非行动者。在 MLOps 中,人类仍然做决策,模型生成预测供人类或下游系统使用。

当AI系统开始选择工具、规划行动并独立执行工作流时,这种心智模型就崩溃了。DevOps 和 MLOps 缺乏治理自主行为的原生机制——它们无法定义智能体何时可以独立行动,无法捕获智能体为何选择某个行动而非另一个,也难以观察跨时间和系统展开的长期推理循环。

智能体的四大核心能力

智能体不仅仅是包裹在代码中的模型。它们将四种能力组合成一个运行单元:

  • 推理:允许它们规划和推断行动
  • 记忆:让它们在时间维度上保持上下文
  • 工具:将它们的能力扩展到语言之外
  • 目标:持续驱动行为

这些要素共同产生的系统,行为更像数字操作员而非服务。它们不等待被调用,而是追求目标。这种从"制品"到"行动者"的转变,正是需要新运维学科的原因。

AgenticOps 的定义

AgenticOps 是应对自主智能体运维现实的学科,涵盖整个生命周期:

  • 设计支持受控自主性的架构
  • 在生产环境中安全运行智能体
  • 治理行为以确保对齐
  • 在不失控的情况下扩展部署

AgenticOps 与以往框架的区别在于,它关注的是行为,而不仅仅是代码或模型。AgenticOps 假设涌现性——假设智能体的行为方式无法完全提前预测,并构建系统来负责任地管理这一点。

四个核心问题

AgenticOps 回答四个关键问题:

  1. 如何允许智能体自主行动而不失去控制?
  2. 如何检测系统看似正常但优化了错误结果的微妙故障?
  3. 如何使决策可解释和可审计?
  4. 如何安全地从一个智能体扩展到多个?

核心心智转变

AgenticOps 的核心心智转变简单而深刻:智能体是运维行动者

  • 自主性成为一等架构关注点
  • 运维聚焦于行为,而不仅仅是指标
  • 安全是动态的,而非静态的

一旦你采纳了这种心智模型,AgenticOps 的其余部分就变得不仅合乎逻辑,而且必不可少。

posted on 2026-03-26 18:01  nextdata  阅读(15)  评论(0)    收藏  举报