人工智能已经跨越了一个根本性的门槛。在计算机历史的大部分时间里,软件都在等待人类的明确指令,执行预定义的逻辑,任务完成后便停止运行。那个时代已经不复存在。
如今的AI系统能够推理复杂问题、评估上下文、做出独立决策,并自主行动以实现目标。它们不再是被动的工具,而是数字系统中的主动参与者。
这种转变不是渐进式的,而是架构层面的。当系统开始自主决策和行动时,我们对运维的所有假设都会改变。监控、安全、问责和控制同时变得更加困难和更加重要。
AgenticOps 的存在,是因为我们部署的系统本质已经改变,我们的运维实践也必须随之改变。
传统软件 vs 智能体系统
传统软件运行在确定性的世界中——给定相同的输入,产生相同的输出,遵循完全由人类编写的逻辑。智能体系统则不同,它们在不确定性下运行,动态适应变化的上下文,并在没有人类直接触发的情况下发起行动。它们不是执行指令,而是解读目标;不是遵循固定路径,而是在决策空间中导航。
这一区别至关重要,因为为确定性系统构建的运维模型假设了可预测性。智能体系统在设计上就违反了这一假设——你无法提前完全枚举它们的行为。这并不意味着它们不安全,而是意味着它们不同。认识到这种差异,是负责任地运维它们的第一步。
从 DevOps 到 MLOps 的局限
DevOps 改变了组织交付软件的方式,引入了持续集成、基础设施即代码、自动化测试和实时监控。DevOps 假设执行路径可以被映射、测试和控制,所有决策逻辑由人类编写,控制流在部署后基本是静态的。这些假设使 DevOps 在传统服务和微服务方面取得了巨大成功,但也定义了它的边界。
MLOps 将 DevOps 扩展到机器学习领域,引入了模型版本控制、训练流水线、特征存储和性能监控。但 MLOps 保留了一个关键假设:模型是组件,而非行动者。在 MLOps 中,人类仍然做决策,模型生成预测供人类或下游系统使用。
当AI系统开始选择工具、规划行动并独立执行工作流时,这种心智模型就崩溃了。DevOps 和 MLOps 缺乏治理自主行为的原生机制——它们无法定义智能体何时可以独立行动,无法捕获智能体为何选择某个行动而非另一个,也难以观察跨时间和系统展开的长期推理循环。
智能体的四大核心能力
智能体不仅仅是包裹在代码中的模型。它们将四种能力组合成一个运行单元:
- 推理:允许它们规划和推断行动
- 记忆:让它们在时间维度上保持上下文
- 工具:将它们的能力扩展到语言之外
- 目标:持续驱动行为
这些要素共同产生的系统,行为更像数字操作员而非服务。它们不等待被调用,而是追求目标。这种从"制品"到"行动者"的转变,正是需要新运维学科的原因。
AgenticOps 的定义
AgenticOps 是应对自主智能体运维现实的学科,涵盖整个生命周期:
- 设计支持受控自主性的架构
- 在生产环境中安全运行智能体
- 治理行为以确保对齐
- 在不失控的情况下扩展部署
AgenticOps 与以往框架的区别在于,它关注的是行为,而不仅仅是代码或模型。AgenticOps 假设涌现性——假设智能体的行为方式无法完全提前预测,并构建系统来负责任地管理这一点。
四个核心问题
AgenticOps 回答四个关键问题:
- 如何允许智能体自主行动而不失去控制?
- 如何检测系统看似正常但优化了错误结果的微妙故障?
- 如何使决策可解释和可审计?
- 如何安全地从一个智能体扩展到多个?
核心心智转变
AgenticOps 的核心心智转变简单而深刻:智能体是运维行动者。
- 自主性成为一等架构关注点
- 运维聚焦于行为,而不仅仅是指标
- 安全是动态的,而非静态的
一旦你采纳了这种心智模型,AgenticOps 的其余部分就变得不仅合乎逻辑,而且必不可少。
浙公网安备 33010602011771号