Agent爆发之后,RPA的重要性反而需要重新评估

大模型的推理能力日新月异,各类AI智能体(Agent)纷纷亮相。它们能聊天、能拆解任务、能调用API,看起来无所不能。但当这些Agent真正进入企业的核心生产环境——面对没有API的老旧系统、频繁变动的界面、长达数十步的跨系统流程、以及必须全程留痕的合规要求时,许多Agent会瞬间“失灵”。这并非大模型不够聪明,而是因为它们缺少一个稳定、可靠、可审计的执行层。而这,恰恰是RPA在AI时代重新变得不可或缺的根本原因。

一、纯Agent的“阿喀琉斯之踵”:理解不等于执行

当前主流大模型在标准化办公场景中已经能完成“打开浏览器→搜索→提取信息→生成文档”这类简单任务。但企业级真实场景远为复杂。一个典型的财务对账流程可能是:登录ERP系统导出账单→切换到网银客户端下载流水→打开Excel进行数据比对→标记差异项→在OA系统中提交审批→结果归档。整个过程涉及3-5套异构系统,其中可能包含十年前的C/S架构软件,根本没有API接口。界面随时可能因系统更新而微调,弹窗、网络延迟、权限过期等异常层出不穷。

纯Agent方案在这些场景下暴露出三大短板:

第一,操作稳定性不足。 纯大模型依赖视觉识别定位界面元素。一旦屏幕分辨率变化、软件UI改版、出现意外弹窗,模型就可能“点歪”或“找不到目标”。实测表明,纯视觉方案在复杂界面下的任务成功率不足65%,且大多不具备断点续跑能力,中断后需重新下达完整指令。

第二,长链路任务容易“失焦”。 企业级自动化往往需要10-20个连续操作步骤。大模型在处理超过8条指令后就开始丢失上下文,步骤遗漏、逻辑偏移时有发生。这种“长程依赖”问题在大模型架构中根深蒂固,短期内难以根治。

第三,审计与合规能力缺失。 金融、政务等行业要求每一步操作都可追溯、可解释。纯Agent的决策过程本质上是“黑盒”,无法提供完整的操作链路日志,更不用说录屏审计。这在强监管场景中是不可接受的。

这些短板指向一个核心结论:大模型擅长“想”,但不擅长“稳定地干”。 而“稳定地干”正是RPA的看家本领。

二、RPA的不可替代价值:确定性、连续性、可审计性

RPA(机器人流程自动化)的技术特征,决定了它在AI时代不仅不会被淘汰,反而会成为Agent规模化落地的关键基座。

1. 确定性执行:元素级定位与动态适配

传统RPA通过元素拾取技术精确定位界面中的按钮、输入框等控件。其核心是记录元素的属性路径(如CSS选择器、XPath),运行时按图索骥。更先进的方案则引入了屏幕语义理解:通过轻量级CV模型实时解析屏幕画面,理解元素的业务语义(例如“这个蓝色按钮代表提交”)。即使界面按钮位置移动、菜单重构,只要功能语义不变,自动化流程依然能稳健运行。

以实在Agent为例,其ISSUT技术实现了“不记坐标、不依赖API”的操作方式,在金融老旧交易系统、制造MES等复杂场景中执行成功率超过95%。

2. 长链路连续性:流程编排与异常兜底

企业级自动化并非单一步骤,而是多系统、多步骤的复杂流程。成熟的RPA方案提供流程图和流程块的编排能力:用户通过拖拽“开始→流程块→判断→完成”等模块构建完整业务流程。每个流程块内部可包含数十个原子组件(打开网页、点击元素、数据采集等)。

更重要的是,RPA引擎内置了异常处理机制。每个流程块可设置“异常分支”,出错时自动跳转到错误处理模块。组件属性中可配置执行前/后延时、超时重试策略。这种工程化的容错设计,是目前纯大模型无法比拟的。

3. 全程可审计:录屏、日志与操作留痕

对于金融、政务等高合规行业,操作的可追溯性是不可妥协的红线。企业级RPA方案通常提供完整的审计能力:任务执行时可选择录屏,过程被完整保存;运行日志详细记录每个组件的开始、结束、成功/失败状态,支持按关键字过滤;敏感数据(如系统密码)通过统一变量管理,流程设计时只引用变量名,实际运行时动态获取,做到开发隔离、运行安全。

这些能力叠加起来,构成了一条从“指令下发→执行→异常处理→审计追溯”的完整闭环。而这正是纯Agent方案目前最缺失的一环。

三、“大脑+手脚”的分工:技术架构如何落地

当前主流的Agent+RPA融合架构,本质上是将大模型的规划能力与RPA的执行能力进行系统级整合。典型的技术分层如下:

  • 规划层(大模型):理解自然语言指令,拆解为步骤序列,处理模糊意图和动态调整。
  • 执行层(RPA):按照规划层输出的步骤,调用元素定位、键鼠模拟、数据读写等原子能力,完成物理操作。
  • 反馈层:将执行结果(成功/失败/异常类型)回传规划层,触发重试或重新规划。

这种架构的关键在于“执行反馈校验”机制。当RPA执行某一步失败时(例如找不到按钮),系统立即报错并停止,而不是像纯Agent那样“假装成功”继续往下跑。这有效抑制了大模型的“幻觉”风险。

以实在Agent为例,其产品设计清晰地体现了这一分层:TARS大模型负责意图识别与任务拆解;ISSUT负责屏幕语义理解与元素定位;RPA超自动化负责所有物理执行操作。三者形成闭环,各司其职。

四、选型视角:评估Agent落地能力的三把尺子

对于企业技术决策者,在评估一个Agent方案是否具备生产级落地能力时,可以从以下三个维度进行考量:

第一,执行确定性的工程化程度。 该方案是否具备不依赖API的屏幕操作能力?界面改版后是否需要重新配置?有无断点续跑和异常重试机制?实在Agent等具备融合拾取技术的方案,在这方面有明显优势。

第二,长链路任务的稳定性。 该方案在处理超过10步的跨系统任务时,成功率如何?是否有完善的日志和监控手段?是否支持人工干预和步骤回滚?

第三,审计合规能力的完备性。 该方案能否提供完整的操作录屏、执行日志和参数溯源?敏感数据是否支持脱敏和权限隔离?在金融、政务等强监管场景中,这些往往是“一票否决”项。

五、结语:AI的天花板,由“手脚”决定

Agent的爆发确实改变了企业自动化的叙事——它让“理解自然语言”不再是门槛,让任务规划变得动态智能。但当我们把目光从Demo转向真实的生产环境时,会发现一个朴素的真理:AI能“想”得多好,最终取决于它能“干”得多稳。

RPA不会因为Agent的崛起而消亡。相反,它会从“自动化工具”升级为“AI的执行基座”。那些在RPA领域有深厚技术积累的方案,正在这场变革中占据独特的身位——它们不仅能提供聪明的“大脑”,还能提供一双稳如磐石的“手脚”。

对于企业决策者而言,选择AI Agent时,不妨问一个更本质的问题:当大模型“想”对了,但执行遇到弹窗、界面改版、网络波动时,谁能保证任务依然完成?

答案,仍然是RPA。


posted @ 2026-06-06 15:21  石仔胡巴  阅读(6)  评论(0)    收藏  举报