可配置AI智能体CUGA：企业工作流自动化新尝试

某中心的研究人员发布了一款名为CUGA的开源AI智能体，其目标是自动化复杂的企业工作流程，并且根据任务不同，能够保证大约一半的正确率。

CUGA代表“可配置通用智能体”。根据其在AI平台HuggingFace上的介绍，该软件提供“通过多智能体编排、API集成和代码生成，在企业演示应用上实现智能任务自动化”。

“我们对某中心CUGA的愿景是开发一种通用智能体，知识工作者可以对其进行调整和配置，以安全可靠的方式处理他们工作中常规或复杂的部分，”某中心的作者们在7月份发布的一篇论文中写道。

然而，并非所有人都确信智能体是安全或值得信赖的。IT咨询机构Gartner最近建议阻止所有智能体浏览器，并在此前几个月警告称，到2027年，约40%的企业智能体项目将因缺乏商业价值而被取消。

尽管如此，自动化的诱惑依然强大，某中心也乐于提供帮助。其研究人员引用了CUGA在WebArena和AppWorld基准测试中的表现——分别以61.7%的成功率完成网络任务，以及48.2%的场景完成率来评估API任务——并指出，虽然这些分数足以让一名人类员工被解雇，但目前对智能体而言已属于顶级水平。

值得注意的是，某中心似乎并未使用其自有的、专注于企业的WebAgentBench基准来评估CUGA。该公司研究人员关于该自研测试套件的论文描述了三个智能体——AgentWorkflowMemory（AWM）、WorkArena-Legacy和WebVoyager——在完成提示任务方面的表现。

这些智能体的平均原始完成率仅为24.4%，符合策略的完成率更是只有15%。当有五项或更多策略生效时，符合策略的平均完成率仅为7.1%。而企业通常有远超五条适用于业务流程的策略。

“企业工作流通常叠加了数十个并发策略，这表明现实世界中的短板将更加明显，以策略为强健目标的优化——而不仅仅是原始完成率——必须成为焦点目标，”该基准测试论文指出。

在CUGA获得61.7%成功率的WebArena基准测试中，AWM仅获得35.5%的分数。某中心的科学家们今年早些时候指出了各种AI基准测试的缺陷，但至少CUGA的分数表明智能体正在改进。

CUGA采用Apache 2.0许可证发布，其起点是一个旨在从用户提示中识别用户意图的聊天层。这可能是“获取数字销售额最高的账户，然后将其添加到当前页面”，或是HuggingFace演示中包含的任何其他示例提示，该演示模拟了一个小型CRM系统，配有20个预配置工具，用于进行销售相关的查询和API调用。

任务规划与控制组件会分析输入CUGA的提示，并将目标分解为一系列结构化的子任务，记录在一个任务账本中。该账本是动态的，可以在首次尝试失败时重新规划。

“子任务被委派给专门的智能体，例如API智能体，它在安全沙箱中调用代码之前，会使用内部推理循环生成伪代码指令，”研究人员在一篇博客文章中解释道。“该系统利用了一个超越MCP协议的工具注册中心，来解析和理解工具能力，从而实现精确的编排。”

最后，系统会向用户返回一个希望是符合策略的响应。

某中心的开发人员设计CUGA是为了与低代码AI智能体设计平台Langflow协同工作，并支持各种开源模型，例如gpt-oss-120b和Llama-4-Maverick-17B-128E-Instruct-fp8。巧合的是，据称Llama的制造者Meta正在开发一个可能不开源的后续模型，名为Avocado。

CUGA似乎仍有一些粗糙之处。例如，一个最近报告的漏洞表明，该智能体偶尔可能难以退出其运行循环。但是，如果你正在部署AI智能体软件，并期望能毫无障碍地自动化多步骤的业务任务，那么你可能需要降低你的期望。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码

posted @ 2025-12-31 21:06 CodeShare 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

codeshare1135

可配置AI智能体CUGA：企业工作流自动化新尝试

公告