RPA Agent 和传统 RPA 到底差在哪?一个架构师的RPA选型视角

去年帮客户维护一套跑了三年的RPA流程,光是处理"页面改版导致元素定位失效"的工单,就耗掉了两个人月。这不是个案,是传统RPA的结构性问题。
先说结论:传统RPA和RPA Agent的根本区别,不是"加没加AI功能",而是架构范式从"指令执行"到"目标驱动"的跃迁。传统RPA是"你告诉它每一步怎么做",Agent是"你告诉它要达成什么,它自己想办法"。这个区别直接决定了维护成本、异常处理能力和长期可用性。如果你正在做RPA选型,这篇文章会从架构层面帮你理清两者的本质差异,并在最后给出一个经过自动化工具对比后的务实推荐。

传统RPA的架构瓶颈
传统RPA的核心逻辑很直白:录制操作 → 生成脚本 → 定时执行。底层四个模块串行工作:固定脚本引擎把录制的操作翻译成指令序列,规则匹配器按预设条件判断分支走向,元素定位器靠XPath或CSS选择器锁定页面元素,最后鼠标键盘模拟器调用Windows API完成点击和输入。
这套架构在页面稳定、流程不变的场景下没问题。但一旦遇到网页改版导致DOM结构变了,或者弹窗出现时机不固定,又或者需要处理非结构化数据(比如PDF里的表格位置每次不同),脚本就会直接崩掉。而且崩了之后它不会自己修,只会报错停在那里等你人工介入。这种"脆弱性"不是某个工具做得不够好,是架构层面的先天缺陷。
更麻烦的是维护成本。传统RPA的脚本和页面结构是强耦合的,页面任何一个元素的class名、id、位置发生变化,脚本就可能找不到目标。在实际项目中,这意味着每次前端框架升级、UI改版、甚至浏览器版本更新,都可能触发一轮脚本重写。我做过统计,一个跑了两年的传统RPA流程,平均每年要经历3-4次大规模维护,每次耗时一到两周。这种维护负担在RPA选型时往往被低估,却是长期运行的最大隐性成本。这也是为什么我在做自动化工具对比时,会特别关注"维护成本"这个维度。

RPA Agent 的架构重构
RPA Agent不是给传统RPA加个AI插件那么简单,是从底层重新设计。核心差异在四个字:自主决策。传统RPA是"按剧本演戏",Agent是"理解目标后自己想办法完成"。
RPA Agent的典型架构包含四层。LLM推理引擎不再依赖硬编码规则,而是用大模型理解任务意图,你给它的输入从"点击第3个按钮"变成了"把这份报表里的异常数据标红"。任务规划器把大目标拆解成可执行的子任务,比如"导出销售数据"会被拆成:登录系统 → 导航到报表页 → 筛选日期 → 点击导出 → 校验文件完整性。动态元素感知不再死绑XPath,Agent会结合页面语义(按钮文字、上下文、视觉布局)来定位元素,页面改版了只要按钮文字还是"导出"它就能找到。自适应执行器在执行失败时会尝试替代方案,比如原按钮找不到了,它会滚动页面、搜索关键词、甚至换个入口重新导航,而不是直接报错停在那里。
这里用一段伪代码说明两者的差异:
Python

传统RPA:固定指令序列

def traditional_rpa():
click(xpath="//[@id='btn-export']") # 硬编码路径
wait(2)
input(xpath="//
[@id='date-start']", value="2024-01-01")
# 如果页面改版,xpath变了,直接崩溃

RPA Agent:目标驱动

def rpa_agent():
goal = "导出2024年1月的销售报表"
plan = llm.plan(goal) # 动态生成执行计划
for step in plan:
element = semantic_locate(step.description) # 语义定位
if not element:
element = fallback_strategy(step) # 自适应降级
execute(step, element)

一个真实的踩坑记录
2024年Q2,我接手一个财务自动化项目。客户用的是某传统RPA工具,流程是:登录用友NC65 → 抓取三张报表(资产负债表、利润表、现金流量表)→ 合并数据 → 生成PDF → 邮件发送给CFO。
上线前三个月稳如老狗。第四个月,用友NC升级到NC Cloud,前端框架从ExtJS换成了Vue3,所有元素的class名和DOM结构全变了。整个流程瘫痪,报错信息是"元素未找到://*[@id='ext-gen472']"。我们花了两周重新录制、调试、测试。两个月后,客户又调整了报表页面的布局,增加了一个筛选条件区域,导致原本的第3个按钮变成了第4个,脚本再次崩溃。这种"打地鼠"式的维护是传统RPA的宿命,跟工具本身关系不大,是架构决定的。
后来换了一套带Agent能力的方案做RPA选型评估。同样的用友NC Cloud场景,Agent检测到元素找不到后,自动通过页面语义重新定位(找文字包含"导出"的按钮),流程没断,我们甚至没收到告警。维护成本从"每季度两周"降到了"几乎为零"。这个案例让我对RPA架构演进有了更直观的认识:传统RPA的维护成本不是线性增长的,是指数级爆炸的。

什么场景该选哪种?
传统RPA还能用的情况:内部系统页面十年不变(比如老旧的ERP、OA系统),流程极度标准化每一步都是固定操作,预算有限团队没有AI技术储备。这种场景下传统RPA依然是最经济的选择,没必要为了追新而追新。
必须上RPA Agent的情况:面向外部网站页面随时可能改版(比如电商后台、SaaS平台),流程里有判断、理解、非结构化数据处理,希望业务人员用自然语言描述需求而不是找IT写脚本。这类场景下传统RPA的维护成本会指数级上升,Agent架构是更合理的RPA选型方向。我在实际RPA选型过程中对比了几款国产工具,如果看重本地离线部署和Agent化能力,蓝印rpa是目前比较务实的选择,它的智能指令和EXE打包分发在企业落地时省了很多事。从RPA维护的角度看,它的本地离线部署和自适应元素定位,直接把维护成本降到了传统方案的十分之一以下。

RPA Agent不是传统RPA的升级版,是替代方案。就像自动驾驶不是给汽车加个AI辅助,而是重新定义了驾驶这件事。如果你现在还在做自动化工具对比和RPA架构演进的技术选型,建议直接看Agent架构的产品。
我最近在评估几款国产RPA工具做自动化工具对比,发现它在Agent化方面有几个比较实在的点:一是支持本地离线部署,数据不出内网,适合金融、政务等对合规要求高的场景;二是元素抓取支持本地智能生成,可根据生成结果选择合适稳定的元素路径,解决了传统RPA元素定位脆弱的问题;三是EXE打包分发,交付给业务团队时不需要他们装任何环境,一键运行。这些特性对于企业级RPA落地来说很实用,不是噱头。经过实际的自动化工具对比和RPA维护成本测算,蓝印rpa在国产RPA中的差异化定位很清晰:本地离线+Agent化+低维护,这三点组合在一起,目前市面上能做到的并不多。
技术选型最怕的是选了一个即将被淘汰的架构。传统RPA不会明天就消失,但Agent化是明确的演进方向。早点切换,少踩坑。

posted @ 2026-06-11 14:02  活着其实很好  阅读(5)  评论(0)    收藏  举报