隨著人工智慧領域的不斷發展,檢索增強生成(RAG)已成為人工智慧領域的一個轉折點。現在,視覺 RAG 透過整合影像、圖表和影片,將這些能力融入視覺空間。視覺 RAG 能讓模型產生不僅文字正確,而且視覺豐富的反應。在本文中,我們將探討視覺 RAG 與傳統 RAG 的區別以及如何實現它們。
什麼是RAG?
RAG 即“檢索增強生成”(Retrieval-Augmented Generation),透過將外部資訊源整合到生成過程中來增強大型語言模型(LLM)的能力。它從外部來源檢索相關文件或資料,而不是預先訓練的資料。這種方法可以做出準確、最新且與上下文相關的回應。使用 RAG 可以讓大型語言識別器生成可信的資訊。
什麼是Vision RAG?
視覺 RAG 是一種複雜的人工智慧管道,它擴充套件了傳統的 RAG 系統,可處理 PDF 等文件中的文字和視覺資料,如影像、圖表等。與面向文字檢索和生成的一般 RAG 不同,視覺 RAG 使用視覺語言模型(VLM)來索引、檢索和處理視覺資料中的資訊。視覺 RAG 可以更準確、更完整地回答與文件相關的問題。
視覺RAG的特點
以下是視覺 RAG 的一些特點:
- 多模態檢索和生成:Vision RAG 可以處理文件中的文字和視覺資訊。這意味著它可以回答影像、表格等方面的問題,而不僅僅是文字問題。
- 直接視覺嵌入:與光學字元識別(OCR)或人工解析不同,Vision RAG 採用視覺語言模型進行嵌入。這可以保持語義關係和上下文,從而實現更精確的檢索和理解。
- 跨模態統一搜尋:Vision RAG 可在單一向量空間內跨混合模式內容進行有語義意義的搜尋和檢索。
上述所有功能都允許使用者用自然語言提問,並從文字和視覺來源獲得答案,從而支援更自然、更靈活的互動。
如何使用視覺RAG模型?
為了將視覺 RAG 功能納入工作流程,我們將使用 localGPT-vision,它是一種視覺 RAG 模型,可以讓我們做到這一點。
有關 localGPT-vision 的更多資訊,請點選此處。
什麼是localGPT-Vision?
localGPT-Vision 是一款功能強大、基於視覺的端到端檢索增強生成(RAG)系統。與傳統的 RAG 模型不同,它不依賴於 OCR,而是直接處理視覺文件資料,如掃描的 PDF 或影像。
目前,程式碼支援這些 VLM:
- Qwen2-VL-7B-Instruct
- LLAMA-3.2-11B-Vision
- Pixtral-12B-2409
- Molmo&B-O-0924
- Google Gemini
- OpenAI GPT-4o
- LLAMA-32 with Ollama
localGPT-Vision架構
系統架構由兩個主要部分組成:
視覺化文件檢索(透過Colqwen和ColPali)
Colqwen 和 ColPali 是視覺編碼器,旨在純粹透過影像表徵來理解文件。
工作原理
- 在索引編制過程中,文件頁面透過 ColPali 或 Colqwen 轉換為影像嵌入。
- 使用者查詢被嵌入並與索引中的頁面嵌入相匹配。
這樣就能根據視覺佈局、數字等進行檢索,而不僅僅是原始文字。
生成響應(使用視覺語言模型)
匹配度最高的文件頁面將作為影像提交給視覺語言模型 (VLM)。它們透過解碼視覺和文字訊號,生成與上下文相關的答案。
注:答案質量在很大程度上取決於所採用的視覺語言模型和文件影像的解析度。
這種設計無需複雜的文字提取管道,而是透過考慮文件的視覺方面來提供對文件更豐富的理解。不需要任何分塊策略或嵌入模型的選擇,也不需要常規 RAG 系統中使用的檢索策略。
localGPT-Vision的特點
- 互動式聊天介面:聊天介面,可就上傳的影像提出問題。
- 基於視覺的端到端 RAG:透過聊天介面提出與上傳內容相關的問題。
- 檔案上傳和索引:上傳 PDF 和影像,由 ColPali 編制索引以便檢索。
- 持久索引:所有索引都儲存在本地,並在重啟時自動載入。
- 模型選擇:從 GPT-4、Gemini 等各種 VLM 中進行選擇。
- 會話管理:建立、重新命名、切換和刪除聊天會話。
本地GPT-Vision實踐操作
既然大家已經熟悉了 localGPT-Vision,那就讓我們來看看它的實際操作吧。
上一段影片演示了該模型的工作原理。在螢幕左側,您可以看到一個設定面板,在這裡您可以選擇要用於處理 PDF 的 VLM 模型。做出選擇後,我們上傳一個 PDF,系統會提示我們開始編制索引。索引完成後,您只需輸入有關 PDF 的問題,模型就會根據內容生成正確的相關回復。
由於這種設定需要 GPU 才能獲得最佳效能,因此我分享了一個 Google Colab notebook,其中實現了整個模型。你只需要一個模型 API 金鑰(如 Gemini、OpenAI 或其他)和一個用於公開託管應用程式的 Ngrok 金鑰。
視覺RAG的應用
- 醫學影像:綜合分析掃描結果和醫療記錄,提供更智慧、更好的診斷。
- 文件搜尋:透過文字和視覺效果彙總文件資訊。
- 客戶支援:利用使用者提交的照片解決問題。
- 教育:利用圖表和文字幫助解釋概念,實現個性化學習。
- 電子商務:透過分析產品圖片和描述改進產品推薦。
小結
視覺 RAG 代表著人工智慧從複雜的多模態資料中理解和生成知識的能力的重大飛躍。隨著我們採用視覺 RAG 模型,我們可以期待更智慧、更快速、更準確的解決方案,真正利用我們周圍豐富的資訊。它為教育、醫療保健等領域帶來了新的可能性。現在,人工智慧不僅能讀取資訊,還能像人類一樣觀察和理解世界,從而釋放出創新和洞察的潛力。
評論留言