OmniParser2.0.0:基于纯视觉的GUI代理屏幕解析工具 OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent
GitHub - microsoft/OmniParser: A simple screen parsing tool towards pure vision based GUI agent
OmniParser 2.0.0 更新内容:
- 更大且更干净的图标说明 + 定位数据集
- 与V1模型检查点相比,延迟提高了60%
- 强大的性能:在ScreenSpot Pro上的平均准确率为39.6%
- 您的代理只需要一个工具:OmniTool。通过OmniParser和您选择的视觉模型,控制Windows 11虚拟机。OmniTool开箱即用支持以下大型语言模型:OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)或Anthropic计算机使用。
OmniParser v1.5.0 更新内容:
从此版本开始,我们采用语义版本控制,以提供更快、更友好的开发体验。
变更内容
- 添加了Microsoft SECURITY.MD,由@microsoft-github-policy-service在#2中提交
- 修正requirements.txt中的拼写错误,由@nmstoker在#17中提交
- 更新了requirements.txt,由@krishna2在#16中提交
- 更新了requirements.txt中的einops拼写错误,由@redron在#28中提交
- 添加了torch.inference模式,由@aliencaocao在#29中提交
- 添加了PaddleOCR选项,由@aliencaocao在#53中提交
- 添加了图标检测图像大小选项,由@aliencaocao在#72中提交
- 版本1.5,由@yadong-lu在#94中提交
新贡献者
- @microsoft-github-policy-service 在#2中做出了他们的首次贡献
- @nmstoker 在#17中做出了他们的首次贡献
- @krishna2 在#16中做出了他们的首次贡献
- @redron 在#28中做出了他们的首次贡献
- @aliencaocao 在#29中做出了他们的首次贡献
- @yadong-lu 在#94中做出了他们的首次贡献
完整更新日志:https://github.com/microsoft/OmniParser/commits/v1.5.0
OmniParser:基于纯视觉的GUI代理屏幕解析工具
OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent
Logo
arXiv许可
📢 [项目页面] [V2博客文章] [模型V2] [模型V1.5] [HuggingFace Space演示]
OmniParser是一种全面的方法,用于将用户界面截图解析为结构化且易于理解的元素,从而显著提升GPT-4V根据界面对应区域生成可操作动作的能力。
新闻
- [2025/2] 我们发布了OmniParser V2检查点。观看视频
- [2025/2] 我们推出了OmniTool:通过OmniParser和您选择的视觉模型控制Windows 11虚拟机。OmniTool即刻支持以下大型语言模型:OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL) 或 Anthropic计算机使用。观看视频
- [2025/1] V2即将发布。我们在新的基础对接基准——Screen Spot Pro上实现了新的最先进结果,OmniParser v2达到39.5%的准确度(即将发布)!更多详情请点击这里。
- [2024/11] 我们发布了更新版本OmniParser V1.5,特性包括:1)更精细的小图标检测,2)预测每个屏幕元素是否可交互。示例请见demo.ipynb。
- [2024/10] OmniParser成为HuggingFace模型中心的#1流行模型(从2024年10月29日开始)。
- [2024/10] 欢迎查看我们在HuggingFace Space上的演示!(敬请期待OmniParser + Claude计算机使用)
- [2024/10] 互动区域检测模型和图标功能描述模型已发布!HuggingFace模型
- [2024/09] OmniParser在Windows代理竞技场中取得了最佳表现!
安装 首先克隆仓库,然后安装环境:
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
确保你已经下载了V2权重文件到weights文件夹(确保图标说明权重文件夹名为icon_caption_florence)。如果没有,请使用以下命令下载:
# 下载模型检查点到本地目录 OmniParser/weights/
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence
示例: 我们在demo.ipynb中准备了几个简单的示例。
Gradio演示 要运行Gradio演示,只需运行:
python gradio_demo.py
模型权重许可证 关于HuggingFace模型中心的模型检查点,请注意icon_detect模型遵循AGPL许可证,因为它继承了原始YOLO模型的许可证。而icon_caption_blip2和icon_caption_florence则遵循MIT许可证。有关每个模型的详细信息,请参见该模型文件夹中的LICENSE文件:https://huggingface.co/microsoft/OmniParser

浙公网安备 33010602011771号