关注过的 benchmarks

下面的内容和“如何设计一个好的 benchmark”无关，主要是在用别人的 benchmark 的时候，从“使用”上需要这个 benchmark 有什么东西

可以考虑关注某个 benchmark 的以下几点：

是否有训练集。还是单纯的一个测试集。

一个 benchmark 可能有很多不同 subtask，不同的 subtask 会有不同的难度。
是文本模态还是有文本视觉两个模态。

对于 GUI related 环境，OpenAI 坚持了视觉输入的技术路线。不过也有一些环境提供了对 “桌面/网页” 的文字描述。windows agent arena 这个环境中作者将视觉输入的要素标注了框线。
instruction 的数量和 diversity。

例如三维数加法可以出几十万题，但是本质基本一样。也就是说，有些文章的 instruction 是通过 instruction template 生成出来的。
instruction 是否有 golden trajectory，以及 golden trajectory 是怎么被生成的。

例如来 textworld 中作者使用启发式方法写了 20k dfs 来生成 golden trajectory，也有的是人工写的。也有可能文章提供的 golden trajectory 就是完成任务的最短 action trace。
做 evaluation 的方法。

比如是对最终环境的结果是否满足“ mission completed ” 还是将我们的答案和 golden trajectory 进行文本匹配，计算 bleu score。注意 “检查环境是否满足 mission completed” 通常是一件比较耗时的事情。（ACL2024 best resource paper Appworld 提供的环境做 action 的执行也是很耗时的。）

operating system/GUI

https://arxiv.org/pdf/2409.08264 Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

https://arxiv.org/abs/2405.14573 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents

https://arxiv.org/pdf/2404.07972 OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

https://arxiv.org/abs/2307.13854 WebArena: A Realistic Web Environment for Building Autonomous Agents

https://arxiv.org/abs/2207.01206 WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents

https://arxiv.org/pdf/2401.13919 WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

https://arxiv.org/abs/2411.00081 PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks

https://arxiv.org/pdf/2410.07484 WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

https://arxiv.org/pdf/2406.04151 AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments

https://arxiv.org/pdf/2401.13178 AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

https://arxiv.org/abs/2412.14161 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

以下是 openai 和 anthropic 的 agent 工作。openai 的 product 经常反问。这点比较有意思。

https://www.anthropic.com/news/developing-computer-use A 家进军 CUA 并有一定成果是在 2024-10，很早的。

posted @ 2025-02-13 10:26 没学完四大礼包不改名阅读(98) 评论(0) 收藏举报

刷新页面返回顶部