詳解多模態大型語言模型 (LLM) 的運作機制：以願景為主題的故事

多模態大型語言模型 (LLM)

多模態大型語言模型 (MLLM) 近來成為人工智慧領域的熱門話題。它正在動態地重塑人工智慧系統理解和與複雜多感官世界互動的方式。我們獲得的這些多感官輸入也可以被稱為不同的模態（影像、音訊等）。從谷歌最新的 Veo 3 生成最先進的影片，到 ElevenLabs 創造極其逼真的 AI 配音，這些系統正在展現曾經被認為是科幻小說中才有的能力。

本指南是探索多模態 LLM 複雜世界的兩部分系列文章的第一部分。本系列的第二部分將探討這些模型如何生成多模態內容，以及它們在各個行業的實際應用。

多模態的挑戰

多模態無疑是人工智慧模型最強大的能力和進步之一。然而，當我們處理多種模態時，會面臨一些需要克服的挑戰。我們在這方面面臨的主要挑戰如下：

如何表示資訊？多模態LLM的主要挑戰之一是表示不同型別的資訊。如何在訓練多模態模型所需的公共空間中表示和彙總這些多模態資料。
如何對齊不同的模態？我們必須確保識別不同模態中相似元素之間的直接關係。這可以透過兩種方式實現：
1. 顯式對齊：我們直接找到不同模態元素之間的對應關係。為此，我們必須跨音訊、文字、影像等各種模態訓練模型。這種監督對齊或基於規則的對齊是使用動態時間規整 (DTW)、監督注意力機制或對齊矩陣等演算法實現的。
2. 隱式對齊：利用模態的內部潛在對齊來更好地解決不同的問題。允許模型自行解決問題。模型使用諸如自注意力、對比學習或共同注意力機制等技術來學習一個模態的哪些部分與另一個模態相關。

多模態LLM

Source – Medium

讓我們透過一個小例子來理解這一點：

由於我們需要儘可能貼近地表示“cat”這個詞，無論它是以文字、影像還是語音的形式，因此我們應該確保其他詞（例如“dog”）遠離“cat”這個詞。來自不同模態的這些嵌入需要在共享維度空間中正確對齊。

例項說明多模態LLM

Source – Media2.dev

表徵學習

我們的第一個問題“如何表徵資訊”可以透過表徵學習來解決。基於表徵的學習有兩種型別，透過它們，多模態模型可以理解多模態資訊。它們是：聯合表徵和協調錶徵。

聯合表徵

聯合表徵可以定義為對不同型別資訊（例如文字、影像、影片、音訊等）的單一統一表徵。我們將每種模態的嵌入組合在一個單一的嵌入維度空間中。

聯合表徵

Source – Medium

在這種方法中，我們將每個模態傳遞到其各自的編碼器。基本上，文字將透過文字編碼器（例如 BERT），影像將透過影像編碼器（例如 VIT）傳遞，其他模態也是如此。

編碼器

Source – Medium

我們獲取每個模態的嵌入。之後，這些嵌入表示使用連線技術進行合併。然後，投影層或多模態注意機制將為某些特徵分配特定的重要性。最終的聯合嵌入將包含所有輸入模態的完整語義。

整個系統都經過訓練。各個模態編碼器、融合機制以及最終的任務特定層都使用單個損失函式進行最佳化。這種統一的訓練設定使模型能夠更有效地學習跨模態相關性，尤其是在模態高度相互依賴的情況下（例如，像 COCO 資料集中的影像及其標題）。

當輸入模態緊密相關或可用訓練資料有限時，這些聯合嵌入尤其有用，因為共享表徵有助於規範學習過程，並從組合輸入中提取更豐富、語義上有意義的特徵。

瞭解更多關於嵌入的演化。

協調錶徵

另一方面，協調錶徵學習採用完全不同的方法。在這裡，我們單獨學習獨立的表徵，然後在融合階段將它們協調（或對齊）在一起。在這種方法中，每種模態（文字、影像、音訊等）都由其專用模型處理，該模型單獨訓練，並且可能具有各自的損失函式和目標函式。

協調錶徵

Source – Medium

這些模型訓練完成後，它們各自的輸出嵌入將使用協調融合機制進行組合，例如後期融合（簡單級聯）、跨模態注意力機制或統計對齊方法，例如典型相關分析 (CCA)。協調階段的重點是確保各個單獨的嵌入在語義上彼此對齊，以便它們能夠共同對最終預測做出貢獻。與聯合嵌入不同，協調嵌入允許每個模態保留其自身的特徵結構，而不會過早地被強制進入共享的表示空間。

當模態在某種程度上獨立或鬆散耦合，或存在大量特定於模態的資料，或計算資源允許進行更廣泛的預訓練時，此方法非常有效。協調嵌入還在模型架構和訓練流程方面提供了更大的靈活性，因為每個模態可以在協調之前獨立改進。

顯式對齊 vs 隱式對齊

讓我們嘗試在這裡列出我們的理解：

特徵	顯式對齊	隱式對齊
本質	監督 / 有註釋	無監督 / 在訓練中學習
對標籤的需求	需要對齊或註釋資料	不需要顯式對齊
方法	手動或基於規則的對映	透過注意力或對比損失學習
示例任務	帶邊界框的影像描述	CLIP、使用無監督注意力的視覺問答 (VQA)
優勢	高精度、可解釋	可擴充套件、靈活、可學習細粒度關聯

接下來，我們將嘗試理解上一節中使用的另一個重要術語“融合”。

如果您想了解如何進行隱式對齊，請閱讀此文。在這篇研究論文中，模型將影像片段（影像中的物件）和句子片段（型別化的依存樹關係）嵌入到一個公共空間中。

MLLMs-6

讓我們更深入地探討一下。

多模態法LLM中的融合概念

多模態學習的基石在於理解如何有效地組合不同型別的資料。換句話說，它是一種在統一的維度空間中精確對齊不同模態的方法。融合策略決定了何時以及如何整合來自不同模態的資訊，從根本上塑造了模型理解複雜多模態輸入的能力。

融合是指將來自文字、影像和音訊等多種模態的資訊整合成一個統一的表示。它在使模型能夠利用來自每種模態的互補資訊方面發揮著至關重要的作用。目標是將特徵組合起來，使模型能夠做出更明智的預測。這與我們在深度學習中使用的融合概念非常相似。

融合有兩種廣泛使用的策略：早期融合和晚期融合。

早期融合和晚期融合

Source – Medium

此外，還有第三種型別——中期融合，稍後我會對此進行解釋。

1. 早期融合

早期融合代表了最簡單的多模態整合方法，在進行任何處理之前，不同模態的原始資料在輸入層就被組合在一起。在早期融合系統中，來自不同來源的資料（例如影像的畫素值和標記化的文字）在處理流程的初始階段透過簡單的操作進行連線或組合。這種方法允許從計算的最初階段開始進行模態之間的全面互動，從而使模型能夠捕捉到在後期融合方法中可能丟失的細微關聯和依賴關係。

流程：原始模態 -> 特徵提取（低階特徵）-> 連線/簡單組合 -> 由單個模型進行聯合處理。
優點：它允許模型從最初階段學習模態之間的關聯和互動。它在概念上也更簡單。
缺點：如果模態的結構或尺度差異很大，則可能難以有效實施。組合後的特徵空間可能變得非常高維且難以處理。它在早期強制採用“一刀切”的處理方法，這可能並非對每種模態都最優。

例如：早期的嘗試可能涉及將影像展平，然後將其與文字嵌入連線，然後再將其輸入神經網路。由於其侷限性，這在現代複雜的多模態LLM中並不常見。

2. 後期融合

後期融合採用相反的方法，透過專門的網路獨立處理每種模態，然後在決策層合併結果。在這裡，單獨的神經網路使用針對特定模態最佳化的架構來處理每種資料型別，例如用於影像的卷積神經網路，用於文字的Transformer架構和用於影像的VIT架構。然後，使用加權平均、連線或更復雜的融合模組等技術將這些專門處理器的輸出組合起來。

流程：模態A -> 模型A -> 輸出A；模態B -> 模型B -> 輸出B。然後，將輸出A和輸出B組合起來（使用平均、投票、小型神經網路等）。
優點：它允許使用最適合每種模態的模型對其進行最佳化和專門處理。如果您已經擁有強大的單模態模型，則實現起來會更簡單。它在缺失模態的情況下也更穩健。
缺點：由於模態之間的低階特徵被單獨處理的時間過長，它無法捕捉這些特徵。此外，融合發生得太晚，不足以影響每個模態流中的特徵學習。

示例：影像分類器識別影像中的物體，文字分類器分析標題。然後，一個單獨的模組會組合/融合這些分類，以判斷標題是否準確地描述了影像。

3. 中期融合

中期融合透過在網路的各個中間層整合多模態資訊，在早期方法和晚期方法之間取得平衡。這種策略使模型能夠捕捉低階跨模態互動和高階語義關係。中期融合架構通常採用注意力機制或專門的傳輸模組，允許資訊在整個網路中的多個點上在特定模態的處理流之間流動。多模態傳輸模組 (MMTM) 採用這種方法，透過擠壓和激勵操作，基於來自多模態的資訊重新計算每個 CNN 流中的通道特徵。

流程：模態 A -> 部分處理 A -> 特徵 A；模態 B -> 部分處理 B -> 特徵 B。然後，特徵 A 和特徵 B 被組合並輸入到聯合多模態處理網路中。
優點：它允許專門的初始處理，同時仍使模型能夠在更深的特徵層面學習豐富的跨模態關係。它還提供了更大的靈活性。
缺點：設計和訓練可能更復雜。在這種情況下，找到最佳融合點和方法可能具有挑戰性。

示例：大多數現代視覺語言模型（如 LLaVA）都採用這種方法。影像編碼器將影像處理成一組特徵向量，文字編碼器將文字處理成標記嵌入。然後，它們被投影並組合，以便中央 LLM 能夠同時處理兩者。

核心編碼器架構

現在，讓我們嘗試對 VLMS 中一些廣泛使用的編碼器進行更全面的理解。

CLIP：對比語言-影像預訓練

CLIP 代表了多模態學習的一項基礎性突破，它引入了一種簡單而強大的方法，透過對比預訓練來學習影像和文字的聯合表徵。該架構由兩個獨立的編碼器組成：一個處理影像的視覺編碼器和一個處理自然語言描述的文字編碼器。這兩個編碼器使用對比目標進行聯合訓練，該目標鼓勵模型將影像與其對應的文字描述關聯起來，同時將它們與不相關的文字-影像對區分開來。

CLIP：對比語言-影像預訓練

Source – Medium

CLIP 的訓練過程包括向模型提供 n 個影像-文字對的批次（為了便於理解上圖，假設 n=5），其中每幅影像都與其正確的文字描述配對。該模型會計算批次中所有影像和文字的嵌入，從而建立兩組 n 維向量。

對比損失函式鼓勵正確的影像-文字對之間保持較高的相似度，同時懲罰不正確影像-文字對之間的高相似度。正如我們在上圖中看到的，對角線權重將被最大化，其餘部分將受到懲罰。從數學上講，這表示為相似度得分的對稱交叉熵損失，其中溫度引數控制分佈的銳度。

CLIP 的有效性源於它能夠從網際網路上自然生成的影像-文字對（從網路上抓取的 4 億條資訊）中進行學習，從而無需手動註釋資料集。這種方法使模型能夠學習豐富的語義關係，並能夠很好地推廣到下游任務。學習到的表徵展現出卓越的零樣本能力，使模型能夠對訓練過程中從未見過的類別執行影像分類和檢索任務。CLIP 的成功啟發了眾多後續研究，並確立了對比預訓練作為多模態學習的主導方法的地位。

SigLIP：Sigmoid損失函式提升效率

SigLIP 代表了 CLIP 架構的演進，它解決了原始對比方法的一些計算限制。CLIP 需要計算批次中所有影像和文字對之間的相似度，而 SigLIP 則採用了成對的 Sigmoid 損失函式，可以獨立地對各個影像-文字對進行運算。這種改進無需全域性檢視批次中所有成對的相似度，從而能夠在保持或提升效能的同時，更高效地擴充套件到更大的批次大小。

SigLIP 中使用的 Sigmoid 損失函式相比傳統的對比損失函式具有諸多優勢。它提供了更穩定的訓練機制和更小批次下更佳的效能，使得該方法在有限的計算資源下更容易上手。損失函式的成對特性使得訓練配置更加靈活，並能夠更好地處理每個樣本包含不同數量正例的資料集。

SigLIP 的架構保留了 CLIP 的雙編碼器結構，但融入了架構改進和訓練最佳化，從而提升了效率和效果。該模型使用獨立的影像和文字編碼器為兩種模態生成表徵，其中 S 型損失函式鼓勵匹配對之間的相似性和非匹配對之間的差異性。該方法在各種圖文任務中展現出卓越的效能，同時與傳統的對比方法相比，計算效率更高。

SigLIP：Sigmoid損失函式提升效率

Source: cdn.hashnode

RoPE：旋轉位置嵌入

雖然 RoPE 不能被視為編碼器模型，但它無疑是一種在大型語言模型中廣泛使用的嵌入策略。

旋轉位置嵌入 (RoPE) 代表了一種在基於 Transformer 的架構中編碼位置資訊的複雜方法。 RoPE 使用旋轉矩陣對絕對位置資訊進行編碼，同時在自注意力機制中自然地包含顯式的相對位置依賴關係。這種方法提供了一些寶貴的特性，包括可以靈活地擴充套件到任意序列長度、隨著相對距離的增加而衰減標記間依賴性，以及能夠為線性自注意力機制配備相對位置編碼。

RoPE 的數學基礎在於根據嵌入向量在序列中的位置對其應用旋轉矩陣。這種基於旋轉的方法確保嵌入向量之間的點積能夠同時捕捉內容相似性和相對位置關係。RoPE 的衰減特性意味著序列中距離較遠的標記的注意力權重會自然降低，這與許多自然語言和多模態任務非常契合，在這些任務中，區域性上下文通常比遠距離上下文更重要。

RoPE：旋轉位置嵌入

Source – pbs.twing

在多模態應用中，RoPE 使模型能夠更有效地處理可變長度序列，這在處理多模態資料時至關重要，因為不同模態可能具有不同的時間或空間特徵。 RoPE 能夠推斷出比訓練期間看到的更長的序列，這對於需要處理不同輸入格式和長度的多模態模型來說特別有價值。

視覺語言模型案例研究

現在，讓我們看看這些概念和元件是如何在一些開源且頗具影響力的多模態語言模型 (LLM) 中融合的，尤其關注它們如何“看”。

1. LLaVA（大型語言和視覺助手）

LLaVA 的核心理念是證明一個非常簡單的架構能夠透過使用單個可訓練的線性投影層，高效地將預訓練的視覺編碼器（來自 CLIP）連線到預訓練的大型語言模型 (Vicuna)，從而實現令人印象深刻的視覺推理能力。它利用這些單模態模型強大的現有能力進行多模態理解。

LLaVA（大型語言和視覺助手）

訓練過程

LLaVA 使用預訓練的 Vicuna LLM 和 CLIP 視覺編碼器元件。訓練過程分為兩個階段：

階段 1：視覺特徵對齊（預訓練）

目標：訓練投影層將視覺特徵對映到 LLM 的詞向量空間。
資料：概念字幕 (CC3M) 的一個子集，包含影像-字幕對。
方法：影像輸入（凍結的）CLIP-ViT。輸出的視覺特徵透過（可訓練的）線性投影層。這些投影的視覺標記會被新增到標記化的字幕中。然後，Vicuna LLM（凍結的）負責自迴歸預測字幕。僅更新線性投影層的權重。

階段 2：指令微調（端到端）

目標：提升模型遵循指令和進行復雜視覺對話的能力。
資料：一個小型、高質量的合成資料集 (LLaVA-Instruct-158K)，使用 GPT-4 建立關於影像、詳細描述和複雜推理任務的各種問題。該資料集包括：多模態對話 (58k)、影像的詳細文字描述 (23k) 以及複雜推理/複雜視覺問答 (77k)。
方法：投影層和 LLM 權重均基於該指令資料集進行微調。LLM 的輸入是投影影像特徵和文字指令/問題的組合。

工作原理

LLaVA 模型處理的輸入可以是文字、影像或兩者的組合。其工作原理如下：

文字輸入：Vicuna 的原生分詞器和嵌入系統透過對提供的文字（例如問題）進行分詞和嵌入，為 LLM 做好準備。
影像輸入：CLIP 視覺編碼器（具體來說是其 Vision Transformer，ViT）從影像中提取豐富的視覺特徵。這些特徵通常表示影像塊，是一個向量序列。
投影：這些視覺特徵向量隨後經過 MLP 投影層。該層執行線性變換，將視覺特徵投影到與 Vicuna 的詞嵌入相同的維度。這使得視覺資訊在 LLM 看來“像”單詞分詞。
將組合輸入輸入到 LLM：模型隨後將投影的視覺標記與文字標記嵌入進行組合（例如，將視覺標記新增到文字標記的前面）。
LLM 處理（融合與推理）：此組合序列被輸入到 Vicuna LLM。LLM 的注意力機制會同時處理這兩種型別的標記。這就是“融合”發生的地方，它允許模型將文字的各個部分與相關的視覺標記關聯起來。目標是實現聯合嵌入（共享表示空間）和隱式對齊（將視覺概念與文字概念連線起來）。
輸出生成：基於處理後的組合輸入，LLM 自迴歸地生成對查詢或指令的文字響應。

多模態生成

簡化版本

LLaVA 檢視影像並使用 CLIP（視覺編碼器）為影像建立字幕。一個特殊的翻譯器（投影層）將這些字幕轉換為 Vicuna LLM 能夠理解的語言。然後，Vicuna 大腦會讀取翻譯後的字幕和任何實際的文字單詞（例如您的問題）。最後，Vicuna 大腦會利用所有這些資訊，在文字中給出答案。

編碼器-解碼器架構

雖然 LLaVA 並非傳統的序列到序列翻譯意義上的編碼器-解碼器，但它使用了以下元件來充當以下角色：

視覺編碼器：一個預訓練的 CLIP ViT-L/14。該模型輸入影像並輸出視覺嵌入（特徵）。
語言模型（充當解碼器）：Vicuna（一個指令調優的 Llama 變體）。它將視覺嵌入（投影后）和文字嵌入作為輸入，並透過自迴歸生成文字輸出。
聯結器/投影器（“橋接器”）：一個線性多層感知器 (MLP) 層。這是將視覺特徵從視覺編碼器的空間轉換到 LLM 的輸入嵌入空間的關鍵新元件。

優勢

簡潔高效：相對簡單的架構和高效的訓練（尤其是第一階段）帶來了卓越的效能。
充分利用預訓練模型：有效利用強大且易於獲取的預訓練視覺 (CLIP) 和語言 (Vicuna) 模型。
經濟高效的微調：初始特徵對齊階段僅訓練一個較小的投影層，從而降低計算成本。
指令遵循：LLaVA-Instruct-158K 資料集對於實現強大的對話和指令遵循能力至關重要。
開源：為視覺語言模型的開源研究做出了重大貢獻。

侷限性

粒度（早期版本）：原始 LLaVA 通常依賴於單個全域性特徵向量或影像中的小序列（例如 [CLS] 標記特徵），這可能會限制對非常精細細節或複雜空間關係的理解。（後續版本，例如 LLaVA-1.5，透過使用更多塊特徵和 MLP 投影儀改進了這一點）。
幻覺：有時會“幻覺”影像中不存在的物體或細節，這是 LLM 的常見問題。
推理深度：雖然很好，但與更大、訓練更廣泛的模型相比，對非常複雜的場景或抽象視覺概念的推理可能會受到限制。
資料集依賴性：效能在很大程度上受到指令調整資料集的質量和性質的影響。

2. Llama 3 Vision (Llama 3.1 Vision 8B / 70B)

Llama 3 Vision 旨在透過將強大的視覺編碼器與 Llama 3 LLM 的強大基礎相結合，構建最先進的開源多模態模型。其核心理念是利用 Meta 在 LLM、視覺模型和大規模訓練方法方面的進步，建立能夠執行復雜視覺推理、理解細微視覺細節並遵循涉及影像和文字的複雜指令的模型。

Llama 3 Vision

Source – Medium

訓練過程

Llama 3 Vision 模型利用預訓練的 Llama 3 LLM 和強大的預訓練視覺編碼器（例如 CLIP ViT）。訓練策略通常包括：

第一階段：大規模多模態預訓練

目標：大規模地教授模型基本的視覺概念及其與語言的深度關聯。
資料：來自不同來源（例如，公開的網路資料、授權資料集）的數十億個圖文對。Meta 可以訪問海量（匿名且隱私保護的）圖文資料。
方法：視覺編碼器、投影模組（例如，雙層多層感知器 (MLP)）和 Llama 3 LLM 進行聯合訓練。該模型學習預測與影像相關的文字或文字/影像中被遮罩的部分。此階段訓練投影模組，並對視覺編碼器和 LLM 進行微調，以實現多模態理解。

第二階段：指令微調（端到端）

目標：增強模型遵循不同指令、參與對話以及執行特定多模態任務的能力。
資料：精選的高質量多模態指令遵循資料集，包括視覺問答 (VQA)、影像字幕、視覺推理、物體定位、影像光學字元識別 (OCR)、圖表/示意圖理解等。
方法：基於這些指令資料集對整個模型（或其重要部分）進行微調，以提高其實用性、安全性和特定任務的效能。
縮放：Meta 強調縮放規律，這意味著 Llama 3 Vision 受益於 LLM 大小（例如，從 8B 到 70B）、視覺編碼器大小以及訓練資料量和質量的提升。

指令微調（端到端）

Source – Medium

工作原理

Llama 3 Vision 處理影像和文字輸入以生成文字輸出。

文字輸入：使用 Llama 3 的高階分詞器（例如 128k 詞彙量）對文字（例如問題、說明）進行分詞，並將其轉換為分詞向量。
影像輸入：輸入影像經過預處理（例如，縮放到 Llama 3.1 Vision 的 448×448 解析度）。然後，影像被輸入到強大的視覺編碼器（例如 CLIP ViT 模型）中。視覺編碼器處理影像並輸出一系列視覺向量，代表多個影像塊（例如，Llama 3.1 Vision 從 CLIP ViT-L/14 模型中生成 144 個視覺分詞）。
投影：這些視覺向量透過投影模組，通常是多層感知器（例如 Llama 3.1 Vision 中的雙層多層感知器 (MLP)）。投影器將這些視覺特徵轉換為與 Llama 3 LLM 輸入空間相容的嵌入向量。
LLM 的組合輸入：投影的視覺標記與文字標記嵌入向量組合。可以使用特殊的影像標記來劃分序列中的視覺資訊。
LLM 處理（融合與推理）：Llama 3 LLM 處理這種交錯的視覺和文字標記序列。其複雜的注意力機制（分組查詢注意力機制，可提高長序列的效率）使其能夠深度整合和關聯來自兩種模態的資訊。這使得在非常細粒度的級別上實現聯合嵌入和隱式對齊成為可能。
輸出生成：LLM 利用其豐富的預訓練知識、詳細的視覺資訊和文字上下文進行推理，並生成連貫且相關的文字響應。

簡化版本

Llama 3 Vision 使用非常敏銳的 ViT 變體模型來觀察影像，將其分解為許多詳細的影像詞（影像塊資訊）。投影儀將這些詳細的影像字幕準備好，供超級智慧的 Llama 3 LLM 使用。Llama 3 大腦會讀取這些字幕以及您提出的任何文字問題。由於 Llama 3 大腦規模龐大且訓練有素，它可以理解圖片中的複雜內容，並在文字中提供非常詳細且智慧的答案。

編碼器-解碼器架構

與 LLaVA 類似，它採用視覺編碼器 + 投影儀 + LLM 架構：

視覺編碼器：一個強大的、經過預訓練的視覺轉換器。對於 Llama 3.1 Vision，這是一個 CLIP ViT 模型，可能是一個大型變體。
語言模型（充當解碼器）：Llama 3 模型（例如 Llama 3 8B 或 Llama 3 70B），它是一個自迴歸解碼器。
聯結器/投影儀：一個可學習的模組，通常是 MLP（例如，Llama 3.1 Vision 的兩層 MLP），用於將 ViT 輸出中的視覺特徵序列對映到 LLM 的輸入嵌入空間。

Llama 3 Vision 模型影像解碼

Source – Medium

優勢

一流的效能：憑藉規模化和先進的訓練方法，力求在廣泛的視覺語言基準測試中取得頂級效能。
規模化：得益於大型基礎 LLM（Llama 3 8B、70B）、強大的視覺編碼器和海量訓練資料集。
強大的基礎 LLM：基於效能強大的 Llama 3 模型構建，該模型以出色的文字生成和推理能力而聞名。
改進的推理能力和減少幻覺：對高質量、多樣化的資料進行廣泛的預訓練和微調，有助於改進推理能力並減少幻覺。
高階功能：在 OCR、圖表/圖形理解和細粒度視覺細節識別等領域表現出色。
架構改進：利用 LLM 的進步，例如分組查詢注意力 (GQA)，高效處理長序列（包括視覺標記）。

侷限性

計算成本：較大的模型（例如 70B）需要大量的計算資源進行訓練和推理。
資料依賴性和偏差：效能和潛在偏差仍然取決於用於訓練的龐大資料集。確保公平性和減少有害偏差是一項持續的挑戰。
幻覺：雖然有所降低，但產生看似合理但實際錯誤資訊（幻覺）的風險仍然存在，尤其是在輸入分佈不均或高度模糊的情況下。
複雜性：與更簡單的模型相比，規模和複雜性的增加會使終端使用者的除錯、解釋和微調更具挑戰性。

Llama 4的進展

雖然 Llama 4 的具體、經過驗證的細節仍在不斷湧現，但圍繞其進展的討論通常集中在如何應對大規模多模態學習的固有挑戰，特別是透過混合專家 (MoE) 等架構創新來實現。

Llama 4的進展

Source – scontent

1. 利用MoE解決計算複雜性和可擴充套件性問題

Llama 4 的一個關鍵概念改進是 MoE 的有效實現。該架構透過僅啟用相關專家，顯著降低了計算成本。這在增強模型容量的同時，還能保持訓練和推理的計算負載可控。

這種效率對於處理日益龐大、高解析度的多模態資料集和長序列至關重要，否則這些資料集和序列長度會受到傳統注意力機制二次擴充套件的瓶頸限制。這也支援更廣泛的可擴充套件性解決方案，使模型能夠從更廣泛、更多樣化的資料中學習。

2. 改進的異構資料對齊

憑藉 MoE 提供的能力和訓練策略的進步，Llama 4 將致力於對影像和文字等不同模態進行更復雜的對齊。這涉及開發更魯棒的表示，以捕捉特定模態的特徵（例如，視覺中的空間相關性、文字中的語義規則），同時實現更深入的跨模態理解和互動。

Llama4 架構還提到了使用早期融合機制 (Early Fusion) 將嵌入對齊到統一的表示空間。雖然這不是其主要目的，但如果使用合適的資料進行訓練，MoE 框架內容量的提升和專業化可以間接地幫助更好地處理不同模態之間的統計差異甚至時間差異。

3. 增強魯棒性和偏差緩解

像 Llama 4 這樣的模型預計將採用更先進的策略來解決遺傳偏差並提高整體魯棒性。Llama 4 的目標是：

在預訓練和微調過程中實施更全面的偏差緩解技術，以減少跨模態互動對偏差的放大。
增強對輸入質量變化、分佈外資料以及可能利用跨模態漏洞的對抗性攻擊的抵禦能力。目標是在更廣泛的實際場景中實現更可靠、更安全的效能。

小結

多模態LLM的演進代表了人工智慧領域最重要的進步之一，它從根本上改變了機器感知和與周圍世界互動的方式。從早期融合和晚期融合的基礎概念，到像Llama 4這樣的現代系統的複雜架構，我們追溯了使人工智慧系統能夠以類似人類的複雜度理解和處理多模態資訊的技術歷程。我們探索的技術基礎，包括對比學習原理、聯合嵌入空間和對齊機制，提供了使多模態理解成為可能的理論框架。

我們對LLaVA、Llama 3.2 Vision和Llama 4的案例研究展現了多模態能力的快速發展。LLaVA證明了，透過視覺指令調整，優雅的簡潔性可以取得顯著的效果。Llama 3.2 Vision展示了複雜的交叉注意力機制如何實現魯棒的多模態推理。Llama 4代表了當前最先進的技術，它引入了混合專家架構和前所未有的上下文長度，從而開闢了全新的應用類別。在本系列的第二部分中，我們將探討這些多模式 LLM 如何理解音訊。

LLM 多模態

詳解多模態大型語言模型 (LLM) 的運作機制：以願景為主題的故事

文章目录

多模態的挑戰

表徵學習

聯合表徵