OmniParser2.0.0：基于纯视觉的GUI代理屏幕解析工具 OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent

GitHub - microsoft/OmniParser: A simple screen parsing tool towards pure vision based GUI agent

OmniParser 2.0.0 更新内容：

更大且更干净的图标说明 + 定位数据集
与V1模型检查点相比，延迟提高了60%
强大的性能：在ScreenSpot Pro上的平均准确率为39.6%
您的代理只需要一个工具：OmniTool。通过OmniParser和您选择的视觉模型，控制Windows 11虚拟机。OmniTool开箱即用支持以下大型语言模型：OpenAI（4o/o1/o3-mini）、DeepSeek（R1）、Qwen（2.5VL）或Anthropic计算机使用。

OmniParser v1.5.0 更新内容：

从此版本开始，我们采用语义版本控制，以提供更快、更友好的开发体验。

变更内容

添加了Microsoft SECURITY.MD，由@microsoft-github-policy-service在#2中提交
修正requirements.txt中的拼写错误，由@nmstoker在#17中提交
更新了requirements.txt，由@krishna2在#16中提交
更新了requirements.txt中的einops拼写错误，由@redron在#28中提交
添加了torch.inference模式，由@aliencaocao在#29中提交
添加了PaddleOCR选项，由@aliencaocao在#53中提交
添加了图标检测图像大小选项，由@aliencaocao在#72中提交
版本1.5，由@yadong-lu在#94中提交

新贡献者

@microsoft-github-policy-service 在#2中做出了他们的首次贡献
@nmstoker 在#17中做出了他们的首次贡献
@krishna2 在#16中做出了他们的首次贡献
@redron 在#28中做出了他们的首次贡献
@aliencaocao 在#29中做出了他们的首次贡献
@yadong-lu 在#94中做出了他们的首次贡献

完整更新日志：https://github.com/microsoft/OmniParser/commits/v1.5.0

OmniParser：基于纯视觉的GUI代理屏幕解析工具

OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent

一个简单的屏幕解析工具，面向基于纯视觉的GUI代理

A simple screen parsing tool towards pure vision based GUI agent

Logo

arXiv许可

📢 [项目页面] [V2博客文章] [模型V2] [模型V1.5] [HuggingFace Space演示]

OmniParser是一种全面的方法，用于将用户界面截图解析为结构化且易于理解的元素，从而显著提升GPT-4V根据界面对应区域生成可操作动作的能力。

新闻

[2025/2] 我们发布了OmniParser V2检查点。观看视频
[2025/2] 我们推出了OmniTool：通过OmniParser和您选择的视觉模型控制Windows 11虚拟机。OmniTool即刻支持以下大型语言模型：OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL) 或 Anthropic计算机使用。观看视频
[2025/1] V2即将发布。我们在新的基础对接基准——Screen Spot Pro上实现了新的最先进结果，OmniParser v2达到39.5%的准确度（即将发布）！更多详情请点击这里。
[2024/11] 我们发布了更新版本OmniParser V1.5，特性包括：1）更精细的小图标检测，2）预测每个屏幕元素是否可交互。示例请见demo.ipynb。
[2024/10] OmniParser成为HuggingFace模型中心的#1流行模型（从2024年10月29日开始）。
[2024/10] 欢迎查看我们在HuggingFace Space上的演示！（敬请期待OmniParser + Claude计算机使用）
[2024/10] 互动区域检测模型和图标功能描述模型已发布！HuggingFace模型
[2024/09] OmniParser在Windows代理竞技场中取得了最佳表现！

安装首先克隆仓库，然后安装环境：

Copy Code

cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

确保你已经下载了V2权重文件到weights文件夹（确保图标说明权重文件夹名为icon_caption_florence）。如果没有，请使用以下命令下载：

Copy Code

# 下载模型检查点到本地目录 OmniParser/weights/
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence

示例： 我们在demo.ipynb中准备了几个简单的示例。

Gradio演示 要运行Gradio演示，只需运行：

Copy Code

python gradio_demo.py

模型权重许可证 关于HuggingFace模型中心的模型检查点，请注意icon_detect模型遵循AGPL许可证，因为它继承了原始YOLO模型的许可证。而icon_caption_blip2和icon_caption_florence则遵循MIT许可证。有关每个模型的详细信息，请参见该模型文件夹中的LICENSE文件：https://huggingface.co/microsoft/OmniParser

posted @ 2025-02-18 23:53 suv789 阅读(1782) 评论(0) 收藏举报

刷新页面返回顶部

suv789

OmniParser2.0.0：基于纯视觉的GUI代理屏幕解析工具 OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent

OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent

公告