Agent爆发之后，RPA的重要性反而需要重新评估

大模型的推理能力日新月异，各类AI智能体（Agent）纷纷亮相。它们能聊天、能拆解任务、能调用API，看起来无所不能。但当这些Agent真正进入企业的核心生产环境——面对没有API的老旧系统、频繁变动的界面、长达数十步的跨系统流程、以及必须全程留痕的合规要求时，许多Agent会瞬间“失灵”。这并非大模型不够聪明，而是因为它们缺少一个稳定、可靠、可审计的执行层。而这，恰恰是RPA在AI时代重新变得不可或缺的根本原因。

一、纯Agent的“阿喀琉斯之踵”：理解不等于执行

当前主流大模型在标准化办公场景中已经能完成“打开浏览器→搜索→提取信息→生成文档”这类简单任务。但企业级真实场景远为复杂。一个典型的财务对账流程可能是：登录ERP系统导出账单→切换到网银客户端下载流水→打开Excel进行数据比对→标记差异项→在OA系统中提交审批→结果归档。整个过程涉及3-5套异构系统，其中可能包含十年前的C/S架构软件，根本没有API接口。界面随时可能因系统更新而微调，弹窗、网络延迟、权限过期等异常层出不穷。

纯Agent方案在这些场景下暴露出三大短板：

第一，操作稳定性不足。 纯大模型依赖视觉识别定位界面元素。一旦屏幕分辨率变化、软件UI改版、出现意外弹窗，模型就可能“点歪”或“找不到目标”。实测表明，纯视觉方案在复杂界面下的任务成功率不足65%，且大多不具备断点续跑能力，中断后需重新下达完整指令。

第二，长链路任务容易“失焦”。 企业级自动化往往需要10-20个连续操作步骤。大模型在处理超过8条指令后就开始丢失上下文，步骤遗漏、逻辑偏移时有发生。这种“长程依赖”问题在大模型架构中根深蒂固，短期内难以根治。

第三，审计与合规能力缺失。 金融、政务等行业要求每一步操作都可追溯、可解释。纯Agent的决策过程本质上是“黑盒”，无法提供完整的操作链路日志，更不用说录屏审计。这在强监管场景中是不可接受的。

这些短板指向一个核心结论：大模型擅长“想”，但不擅长“稳定地干”。 而“稳定地干”正是RPA的看家本领。

二、RPA的不可替代价值：确定性、连续性、可审计性

RPA（机器人流程自动化）的技术特征，决定了它在AI时代不仅不会被淘汰，反而会成为Agent规模化落地的关键基座。

1. 确定性执行：元素级定位与动态适配

传统RPA通过元素拾取技术精确定位界面中的按钮、输入框等控件。其核心是记录元素的属性路径（如CSS选择器、XPath），运行时按图索骥。更先进的方案则引入了屏幕语义理解：通过轻量级CV模型实时解析屏幕画面，理解元素的业务语义（例如“这个蓝色按钮代表提交”）。即使界面按钮位置移动、菜单重构，只要功能语义不变，自动化流程依然能稳健运行。

以实在Agent为例，其ISSUT技术实现了“不记坐标、不依赖API”的操作方式，在金融老旧交易系统、制造MES等复杂场景中执行成功率超过95%。

2. 长链路连续性：流程编排与异常兜底

企业级自动化并非单一步骤，而是多系统、多步骤的复杂流程。成熟的RPA方案提供流程图和流程块的编排能力：用户通过拖拽“开始→流程块→判断→完成”等模块构建完整业务流程。每个流程块内部可包含数十个原子组件（打开网页、点击元素、数据采集等）。

更重要的是，RPA引擎内置了异常处理机制。每个流程块可设置“异常分支”，出错时自动跳转到错误处理模块。组件属性中可配置执行前/后延时、超时重试策略。这种工程化的容错设计，是目前纯大模型无法比拟的。

3. 全程可审计：录屏、日志与操作留痕

对于金融、政务等高合规行业，操作的可追溯性是不可妥协的红线。企业级RPA方案通常提供完整的审计能力：任务执行时可选择录屏，过程被完整保存；运行日志详细记录每个组件的开始、结束、成功/失败状态，支持按关键字过滤；敏感数据（如系统密码）通过统一变量管理，流程设计时只引用变量名，实际运行时动态获取，做到开发隔离、运行安全。

这些能力叠加起来，构成了一条从“指令下发→执行→异常处理→审计追溯”的完整闭环。而这正是纯Agent方案目前最缺失的一环。

三、“大脑+手脚”的分工：技术架构如何落地

当前主流的Agent+RPA融合架构，本质上是将大模型的规划能力与RPA的执行能力进行系统级整合。典型的技术分层如下：

规划层（大模型）：理解自然语言指令，拆解为步骤序列，处理模糊意图和动态调整。
执行层（RPA）：按照规划层输出的步骤，调用元素定位、键鼠模拟、数据读写等原子能力，完成物理操作。
反馈层：将执行结果（成功/失败/异常类型）回传规划层，触发重试或重新规划。

这种架构的关键在于“执行反馈校验”机制。当RPA执行某一步失败时（例如找不到按钮），系统立即报错并停止，而不是像纯Agent那样“假装成功”继续往下跑。这有效抑制了大模型的“幻觉”风险。

以实在Agent为例，其产品设计清晰地体现了这一分层：TARS大模型负责意图识别与任务拆解；ISSUT负责屏幕语义理解与元素定位；RPA超自动化负责所有物理执行操作。三者形成闭环，各司其职。

四、选型视角：评估Agent落地能力的三把尺子

对于企业技术决策者，在评估一个Agent方案是否具备生产级落地能力时，可以从以下三个维度进行考量：

第一，执行确定性的工程化程度。 该方案是否具备不依赖API的屏幕操作能力？界面改版后是否需要重新配置？有无断点续跑和异常重试机制？实在Agent等具备融合拾取技术的方案，在这方面有明显优势。

第二，长链路任务的稳定性。 该方案在处理超过10步的跨系统任务时，成功率如何？是否有完善的日志和监控手段？是否支持人工干预和步骤回滚？

第三，审计合规能力的完备性。 该方案能否提供完整的操作录屏、执行日志和参数溯源？敏感数据是否支持脱敏和权限隔离？在金融、政务等强监管场景中，这些往往是“一票否决”项。

五、结语：AI的天花板，由“手脚”决定

Agent的爆发确实改变了企业自动化的叙事——它让“理解自然语言”不再是门槛，让任务规划变得动态智能。但当我们把目光从Demo转向真实的生产环境时，会发现一个朴素的真理：AI能“想”得多好，最终取决于它能“干”得多稳。

RPA不会因为Agent的崛起而消亡。相反，它会从“自动化工具”升级为“AI的执行基座”。那些在RPA领域有深厚技术积累的方案，正在这场变革中占据独特的身位——它们不仅能提供聪明的“大脑”，还能提供一双稳如磐石的“手脚”。

对于企业决策者而言，选择AI Agent时，不妨问一个更本质的问题：当大模型“想”对了，但执行遇到弹窗、界面改版、网络波动时，谁能保证任务依然完成？

答案，仍然是RPA。

posted @ 2026-06-06 15:21 石仔胡巴阅读(6) 评论(0) 收藏举报

刷新页面返回顶部

石仔胡巴