详细介绍:OSWorld - 多模态智能体在真实计算机环境中的开放式任务基准
2025-10-01 22:30 tlnshuju 阅读(241) 评论(0) 收藏 举报文章目录
一、关于 OSWorld
1、项目概览
OSWorld 是一个用于评估多模态智能体在真实计算机环境中执行开放式任务的基准测试平台。支持跨平台操作(Ubuntu/Windows/macOS)和多种虚拟化技术(VMware/VirtualBox/Docker/AWS)。
2、相关链接资源
- Github:https://github.com/xlang-ai/OSWorld
- 官网:https://os-world.github.io/
- 官方文档:https://timothyxxx.github.io/OSWorld/
- 数据示例:https://github.com/xlang-ai/OSWorld/tree/main/evaluation_examples
- 数据查看器:https://os-world.github.io/explorer.html
- 论文:https://arxiv.org/abs/2404.07972
- 社区支持:Discord
- 预下载缓存:https://drive.google.com/file/d/1XlEy49otYDyBlA3O9NbR0BpPfr2TXgaD/view?usp=drive_link
- License:Apache 2.0
3、功能特性
多平台支持
- VMware/VirtualBox/Docker/AWS 等多种虚拟化方案
- 支持 Ubuntu/Windows/macOS 操作系统
并行评估
- AWS 云服务支持可将评估时间缩短至1小时内
- 多环境并行执行框架
二、安装配置
1、VMware/VirtualBox 方案(本地物理机)
# 克隆仓库
git clone https://github.com/xlang-ai/OSWorld
cd OSWorld
# 安装依赖
pip install -r requirements.txt
# 或仅安装基础环境
pip install desktop-env
2、Docker 方案(支持KVM)
# 检查KVM支持
egrep -c '(vmx|svm)' /proc/cpuinfo
# 清理残留容器
docker stop $(docker ps -q) && docker rm $(docker ps -a -q)
3、AWS 云方案
- 详细指南:AWS配置指南
- 公共评估规范:PUBLIC_EVALUATION_GUIDELINE.md
三、快速开始
from desktop_env.desktop_env import DesktopEnv
env = DesktopEnv(action_space="pyautogui")
obs = env.reset(task_config=example)
obs, reward, done, info = env.step("pyautogui.rightClick()")
四、实验评估
1、基线模型测试
# 单线程执行(VMware方案)
python run.py --provider_name vmware --observation_type screenshot --model gpt-4o
# 多环境并行(Docker方案)
python run_multienv.py --provider_name docker --num_envs 10
2、结果查看
python show_result.py
五、常见问题
虚拟机凭证
- 默认账号:
user/password - AWS方案:
osworld-public-evaluation
代理配置
六、参考文献
@misc{OSWorld,
title={OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments},
author={Tianbao Xie et al.},
year={2024},
eprint={2404.07972},
primaryClass={cs.AI}
}
伊织 xAI 2025-08-10(日)
浙公网安备 33010602011771号