可配置AI智能体CUGA:企业工作流自动化新尝试
某中心的研究人员发布了一款名为CUGA的开源AI智能体,其目标是自动化复杂的企业工作流程,并且根据任务不同,能够保证大约一半的正确率。
CUGA代表“可配置通用智能体”。根据其在AI平台HuggingFace上的介绍,该软件提供“通过多智能体编排、API集成和代码生成,在企业演示应用上实现智能任务自动化”。
“我们对某中心CUGA的愿景是开发一种通用智能体,知识工作者可以对其进行调整和配置,以安全可靠的方式处理他们工作中常规或复杂的部分,”某中心的作者们在7月份发布的一篇论文中写道。
然而,并非所有人都确信智能体是安全或值得信赖的。IT咨询机构Gartner最近建议阻止所有智能体浏览器,并在此前几个月警告称,到2027年,约40%的企业智能体项目将因缺乏商业价值而被取消。
尽管如此,自动化的诱惑依然强大,某中心也乐于提供帮助。其研究人员引用了CUGA在WebArena和AppWorld基准测试中的表现——分别以61.7%的成功率完成网络任务,以及48.2%的场景完成率来评估API任务——并指出,虽然这些分数足以让一名人类员工被解雇,但目前对智能体而言已属于顶级水平。
值得注意的是,某中心似乎并未使用其自有的、专注于企业的WebAgentBench基准来评估CUGA。该公司研究人员关于该自研测试套件的论文描述了三个智能体——AgentWorkflowMemory(AWM)、WorkArena-Legacy和WebVoyager——在完成提示任务方面的表现。
这些智能体的平均原始完成率仅为24.4%,符合策略的完成率更是只有15%。当有五项或更多策略生效时,符合策略的平均完成率仅为7.1%。而企业通常有远超五条适用于业务流程的策略。
“企业工作流通常叠加了数十个并发策略,这表明现实世界中的短板将更加明显,以策略为强健目标的优化——而不仅仅是原始完成率——必须成为焦点目标,”该基准测试论文指出。
在CUGA获得61.7%成功率的WebArena基准测试中,AWM仅获得35.5%的分数。某中心的科学家们今年早些时候指出了各种AI基准测试的缺陷,但至少CUGA的分数表明智能体正在改进。
CUGA采用Apache 2.0许可证发布,其起点是一个旨在从用户提示中识别用户意图的聊天层。这可能是“获取数字销售额最高的账户,然后将其添加到当前页面”,或是HuggingFace演示中包含的任何其他示例提示,该演示模拟了一个小型CRM系统,配有20个预配置工具,用于进行销售相关的查询和API调用。
任务规划与控制组件会分析输入CUGA的提示,并将目标分解为一系列结构化的子任务,记录在一个任务账本中。该账本是动态的,可以在首次尝试失败时重新规划。
“子任务被委派给专门的智能体,例如API智能体,它在安全沙箱中调用代码之前,会使用内部推理循环生成伪代码指令,”研究人员在一篇博客文章中解释道。“该系统利用了一个超越MCP协议的工具注册中心,来解析和理解工具能力,从而实现精确的编排。”
最后,系统会向用户返回一个希望是符合策略的响应。
某中心的开发人员设计CUGA是为了与低代码AI智能体设计平台Langflow协同工作,并支持各种开源模型,例如gpt-oss-120b和Llama-4-Maverick-17B-128E-Instruct-fp8。巧合的是,据称Llama的制造者Meta正在开发一个可能不开源的后续模型,名为Avocado。
CUGA似乎仍有一些粗糙之处。例如,一个最近报告的漏洞表明,该智能体偶尔可能难以退出其运行循环。但是,如果你正在部署AI智能体软件,并期望能毫无障碍地自动化多步骤的业务任务,那么你可能需要降低你的期望。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号