什么是视觉检索增强生成（Vision RAG）模型？

随着人工智能领域的不断发展，检索增强生成（RAG）已成为人工智能领域的一个转折点。现在，视觉 RAG 通过整合图像、图表和视频，将这些能力融入视觉空间。视觉 RAG 能让模型产生不仅文字正确，而且视觉丰富的反应。在本文中，我们将探讨视觉 RAG 与传统 RAG 的区别以及如何实现它们。

什么是RAG？

RAG 即“检索增强生成”（Retrieval-Augmented Generation），通过将外部信息源整合到生成过程中来增强大型语言模型（LLM）的能力。它从外部来源检索相关文档或数据，而不是预先训练的数据。这种方法可以做出准确、最新且与上下文相关的回应。使用 RAG 可以让大型语言识别器生成可信的信息。

什么是Vision RAG？

视觉 RAG 是一种复杂的人工智能管道，它扩展了传统的 RAG 系统，可处理 PDF 等文档中的文本和视觉数据，如图像、图表等。与面向文本检索和生成的一般 RAG 不同，视觉 RAG 使用视觉语言模型（VLM）来索引、检索和处理视觉数据中的信息。视觉 RAG 可以更准确、更完整地回答与文档相关的问题。

视觉RAG的特点

以下是视觉 RAG 的一些特点：

多模态检索和生成：Vision RAG 可以处理文档中的文本和视觉信息。这意味着它可以回答图像、表格等方面的问题，而不仅仅是文本问题。
直接视觉嵌入：与光学字符识别（OCR）或人工解析不同，Vision RAG 采用视觉语言模型进行嵌入。这可以保持语义关系和上下文，从而实现更精确的检索和理解。
跨模态统一搜索：Vision RAG 可在单一向量空间内跨混合模式内容进行有语义意义的搜索和检索。

上述所有功能都允许用户用自然语言提问，并从文本和视觉来源获得答案，从而支持更自然、更灵活的交互。

如何使用视觉RAG模型？

为了将视觉 RAG 功能纳入工作流程，我们将使用 localGPT-vision，它是一种视觉 RAG 模型，可以让我们做到这一点。

有关 localGPT-vision 的更多信息，请点击此处。

什么是localGPT-Vision？

localGPT-Vision 是一款功能强大、基于视觉的端到端检索增强生成（RAG）系统。与传统的 RAG 模型不同，它不依赖于 OCR，而是直接处理视觉文档数据，如扫描的 PDF 或图像。

目前，代码支持这些 VLM：

Qwen2-VL-7B-Instruct
LLAMA-3.2-11B-Vision
Pixtral-12B-2409
Molmo&B-O-0924
Google Gemini
OpenAI GPT-4o
LLAMA-32 with Ollama

localGPT-Vision架构

系统架构由两个主要部分组成：

可视化文档检索（通过Colqwen和ColPali）

Colqwen 和 ColPali 是视觉编码器，旨在纯粹通过图像表征来理解文档。

工作原理

在索引编制过程中，文档页面通过 ColPali 或 Colqwen 转换为图像嵌入。
用户查询被嵌入并与索引中的页面嵌入相匹配。

这样就能根据视觉布局、数字等进行检索，而不仅仅是原始文本。

localGPT-Vision架构

生成响应（使用视觉语言模型）

匹配度最高的文档页面将作为图像提交给视觉语言模型 (VLM)。它们通过解码视觉和文本信号，生成与上下文相关的答案。

注：答案质量在很大程度上取决于所采用的视觉语言模型和文档图像的分辨率。

这种设计无需复杂的文本提取管道，而是通过考虑文档的视觉方面来提供对文档更丰富的理解。不需要任何分块策略或嵌入模型的选择，也不需要常规 RAG 系统中使用的检索策略。

localGPT-Vision的特点

交互式聊天界面：聊天界面，可就上传的图像提出问题。
基于视觉的端到端 RAG：通过聊天界面提出与上传内容相关的问题。
文件上传和索引：上传 PDF 和图像，由 ColPali 编制索引以便检索。
持久索引：所有索引都存储在本地，并在重启时自动加载。
模型选择：从 GPT-4、Gemini 等各种 VLM 中进行选择。
会话管理：创建、重命名、切换和删除聊天会话。

本地GPT-Vision实践操作

既然大家已经熟悉了 localGPT-Vision，那就让我们来看看它的实际操作吧。

上一段视频演示了该模型的工作原理。在屏幕左侧，您可以看到一个设置面板，在这里您可以选择要用于处理 PDF 的 VLM 模型。做出选择后，我们上传一个 PDF，系统会提示我们开始编制索引。索引完成后，您只需输入有关 PDF 的问题，模型就会根据内容生成正确的相关回复。

由于这种设置需要 GPU 才能获得最佳性能，因此我分享了一个 Google Colab notebook，其中实现了整个模型。你只需要一个模型 API 密钥（如 Gemini、OpenAI 或其他）和一个用于公开托管应用程序的 Ngrok 密钥。

视觉RAG的应用

医学影像：综合分析扫描结果和医疗记录，提供更智能、更好的诊断。
文档搜索：通过文本和视觉效果汇总文档信息。
客户支持：利用用户提交的照片解决问题。
教育：利用图表和文字帮助解释概念，实现个性化学习。
电子商务：通过分析产品图片和描述改进产品推荐。

小结

视觉 RAG 代表着人工智能从复杂的多模态数据中理解和生成知识的能力的重大飞跃。随着我们采用视觉 RAG 模型，我们可以期待更智能、更快速、更准确的解决方案，真正利用我们周围丰富的信息。它为教育、医疗保健等领域带来了新的可能性。现在，人工智能不仅能读取信息，还能像人类一样观察和理解世界，从而释放出创新和洞察的潜力。

RAG 视觉RAG

什么是视觉检索增强生成（Vision RAG）模型？

文章目录

什么是RAG？

什么是Vision RAG？

视觉RAG的特点