关注过的 benchmarks
下面的内容和“如何设计一个好的 benchmark”无关,主要是在用别人的 benchmark 的时候,从“使用”上需要这个 benchmark 有什么东西
可以考虑关注某个 benchmark 的以下几点:
-
是否有训练集。还是单纯的一个测试集。
一个 benchmark 可能有很多不同 subtask,不同的 subtask 会有不同的难度。
-
是文本模态还是有文本视觉两个模态。
对于 GUI related 环境,OpenAI 坚持了视觉输入的技术路线。不过也有一些环境提供了对 “桌面/网页” 的文字描述。windows agent arena 这个环境中作者将视觉输入的要素标注了框线。
-
instruction 的数量 和 diversity。
例如三维数加法可以出几十万题,但是本质基本一样。也就是说,有些文章的 instruction 是通过 instruction template 生成出来的。
-
instruction 是否有 golden trajectory,以及 golden trajectory 是怎么被生成的。
例如来 textworld 中作者使用启发式方法写了 20k dfs 来生成 golden trajectory,也有的是人工写的。也有可能文章提供的 golden trajectory 就是完成任务的最短 action trace。
-
做 evaluation 的方法。
比如是对最终环境的结果是否满足“ mission completed ” 还是将我们的答案和 golden trajectory 进行文本匹配,计算 bleu score。注意 “检查环境是否满足 mission completed” 通常是一件比较耗时的事情。(ACL2024 best resource paper Appworld 提供的环境做 action 的执行也是很耗时的。)
operating system/GUI
https://arxiv.org/pdf/2409.08264 Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale
https://arxiv.org/abs/2405.14573 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents
https://arxiv.org/pdf/2404.07972 OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
web navigation
https://arxiv.org/abs/2307.13854 WebArena: A Realistic Web Environment for Building Autonomous Agents
https://arxiv.org/abs/2207.01206 WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents
https://arxiv.org/pdf/2401.13919 WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models
emboddied
https://arxiv.org/abs/2411.00081 PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks
minecraft
https://arxiv.org/pdf/2410.07484 WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents
agent task collection
https://arxiv.org/pdf/2406.04151 AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments
https://arxiv.org/pdf/2401.13178 AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
https://arxiv.org/abs/2412.14161 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
appendix
以下是 openai 和 anthropic 的 agent 工作。openai 的 product 经常反问。这点比较有意思。
https://openai.com/index/computer-using-agent/ CUA 的博客。
https://openai.com/index/operator-system-card/ operator system card
https://www.anthropic.com/news/developing-computer-use A 家进军 CUA 并有一定成果是在 2024-10,很早的。