如何在本地部署微软的OmniParser V2?

如何在本地部署微软的OmniParser V2?

微软的 OmniParser V2 是一款尖端的人工智能屏幕解析器,可通过分析屏幕截图从图形用户界面中提取结构化数据,使人工智能代理能够与屏幕元素进行无缝交互。该工具是构建自主图形用户界面代理的完美选择,它改变了自动化和工作流程优化的游戏规则。在本指南中,我们将介绍如何在本地安装 OmniParser V2、其运行机制、与 OmniTool 的集成及其实际应用。

OmniParser V2如何工作?

OmniParser V2 采用两步流程:检测和字幕。首先,它的检测模块依靠经过微调的 YOLOv8 模型来发现屏幕截图中的按钮、图标和菜单等交互式元素。接下来,字幕模块使用 Florence-2 基础模型为这些元素创建描述性标签,解释它们在界面中的作用。这些模块共同帮助大型语言模型(LLM)充分理解图形用户界面,从而实现精确的交互和任务执行。

与前代产品相比,OmniParser V2 进行了重大升级。它将延迟减少了 60%,并提高了准确性,尤其是在检测较小的元素时。在 ScreenSpot Pro 等测试中,与 GPT-4o 搭配使用的 OmniParser V2 的平均准确率达到了 39.6%,与 0.8% 的基准分数相比有了巨大的飞跃。这些进步得益于在一个更大、更详细的数据集上进行的训练,该数据集包含有关图标及其功能的丰富信息。

人工智能屏幕解析器性能基准测试得分

安装OmniParser V2的先决条件

在开始安装过程之前,请确保您的系统满足以下要求:

  • Git:安装 Git 以克隆 OmniParser 资源库:
sudo apt install git-all
  • Miniconda:安装 Miniconda 以管理 Python 环境。有关说明请参阅 Miniconda 安装指南.
  • NVIDIA CUDA 工具包和 CUDA 编译器: GPU 加速所需的工具。请从 CUDA 下载适合您操作系统的文件。或者,您也可以通过在 Windows 中安装 WSL 来安装所有文件:
wsl --install

安装步骤

现在你已经准备好了一切,让我们来看看如何安装 OmniParser V2:

Step 1:克隆OmniParser仓库

打开终端,从 GitHub 克隆 OmniParser 仓库:

git clone https://github.com/microsoft/OmniParser
cd OmniParser

Step 2:设置Conda环境

使用 Python 3.12 创建名为“omni”的 Conda 环境:

conda create -n "omni" python==3.12

Step 3:激活环境

conda activate omniCopy Code

Step 4:使用pip安装所需的依赖项

pip install -r requirements.txt

Step 5:下载模型权重

下载 V2 权重并将其放入权重文件夹。确保标题权重文件夹名为icon_caption_florence。如果未下载,请使用:

rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence
huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights
mv weights/icon_caption weights/icon_caption_florence

Step 6:运行Demo

要运行 Gradio Demo,请执行

python gradio_demo.py

运行 Gradio Demo

运行 Gradio Demo

输出

OmniParser V2 输出

OmniTool:增强OmniParser V2

OmniTool 是 Windows 11 虚拟机,它将 OmniParser 与 LLM(如 GPT-4o)集成在一起,以实现完全自主的代理操作。

使用 OmniTool 的好处:

  • 自主代理操作: 使人工智能代理能够在没有人工干预的情况下执行任务。
  • 现实世界自动化: 通过图形用户界面交互,促进重复性任务的自动化。
  • 无障碍解决方案: 为辅助技术提供结构化数据。
  • 用户界面分析: 根据提取的结构化数据分析和改进用户界面。

OmniParser V2的应用

OmniParser V2 的功能开辟了众多应用领域:

  • 用户界面自动化:自动实现与图形用户界面的交互。
  • 无障碍解决方案:为残疾用户提供解决方案。
  • 用户界面分析:根据提取的结构化数据分析和改进用户界面设计。

小结

OmniParser V2 是人工智能可视化解析领域的一大飞跃,它将文本和可视化数据处理无缝连接起来。凭借其速度、精度和无缝集成,它是希望构建人工智能解决方案的开发人员和企业的必备工具。在未来,有机会我们将深入探讨如何使用 Qwen 2.5 运行 OmniParser V2,为现实世界的应用释放更多潜能。

评论留言