详解多模态大型语言模型 (LLM) 的运作机制：以愿景为主题的故事

多模态大型语言模型 (LLM)

多模态大型语言模型 (MLLM) 近来成为人工智能领域的热门话题。它正在动态地重塑人工智能系统理解和与复杂多感官世界互动的方式。我们获得的这些多感官输入也可以被称为不同的模态（图像、音频等）。从谷歌最新的 Veo 3 生成最先进的视频，到 ElevenLabs 创造极其逼真的 AI 配音，这些系统正在展现曾经被认为是科幻小说中才有的能力。

本指南是探索多模态 LLM 复杂世界的两部分系列文章的第一部分。本系列的第二部分将探讨这些模型如何生成多模态内容，以及它们在各个行业的实际应用。

多模态的挑战

多模态无疑是人工智能模型最强大的能力和进步之一。然而，当我们处理多种模态时，会面临一些需要克服的挑战。我们在这方面面临的主要挑战如下：

如何表示信息？多模态LLM的主要挑战之一是表示不同类型的信息。如何在训练多模态模型所需的公共空间中表示和汇总这些多模态数据。
如何对齐不同的模态？我们必须确保识别不同模态中相似元素之间的直接关系。这可以通过两种方式实现：
1. 显式对齐：我们直接找到不同模态元素之间的对应关系。为此，我们必须跨音频、文本、图像等各种模态训练模型。这种监督对齐或基于规则的对齐是使用动态时间规整 (DTW)、监督注意力机制或对齐矩阵等算法实现的。
2. 隐式对齐：利用模态的内部潜在对齐来更好地解决不同的问题。允许模型自行解决问题。模型使用诸如自注意力、对比学习或共同注意力机制等技术来学习一个模态的哪些部分与另一个模态相关。

多模态LLM

Source – Medium

让我们通过一个小例子来理解这一点：

由于我们需要尽可能贴近地表示“cat”这个词，无论它是以文本、图像还是语音的形式，因此我们应该确保其他词（例如“dog”）远离“cat”这个词。来自不同模态的这些嵌入需要在共享维度空间中正确对齐。

实例说明多模态LLM

Source – Media2.dev

表征学习

我们的第一个问题“如何表征信息”可以通过表征学习来解决。基于表征的学习有两种类型，通过它们，多模态模型可以理解多模态信息。它们是：联合表征和协调表征。

联合表征

联合表征可以定义为对不同类型信息（例如文本、图像、视频、音频等）的单一统一表征。我们将每种模态的嵌入组合在一个单一的嵌入维度空间中。

联合表征

Source – Medium

在这种方法中，我们将每个模态传递到其各自的编码器。基本上，文本将通过文本编码器（例如 BERT），图像将通过图像编码器（例如 VIT）传递，其他模态也是如此。

编码器

Source – Medium

我们获取每个模态的嵌入。之后，这些嵌入表示使用连接技术进行合并。然后，投影层或多模态注意机制将为某些特征分配特定的重要性。最终的联合嵌入将包含所有输入模态的完整语义。

整个系统都经过训练。各个模态编码器、融合机制以及最终的任务特定层都使用单个损失函数进行优化。这种统一的训练设置使模型能够更有效地学习跨模态相关性，尤其是在模态高度相互依赖的情况下（例如，像 COCO 数据集中的图像及其标题）。

当输入模态紧密相关或可用训练数据有限时，这些联合嵌入尤其有用，因为共享表征有助于规范学习过程，并从组合输入中提取更丰富、语义上有意义的特征。

了解更多关于嵌入的演化。

协调表征

另一方面，协调表征学习采用完全不同的方法。在这里，我们单独学习独立的表征，然后在融合阶段将它们协调（或对齐）在一起。在这种方法中，每种模态（文本、图像、音频等）都由其专用模型处理，该模型单独训练，并且可能具有各自的损失函数和目标函数。

协调表征

Source – Medium

这些模型训练完成后，它们各自的输出嵌入将使用协调融合机制进行组合，例如后期融合（简单级联）、跨模态注意力机制或统计对齐方法，例如典型相关分析 (CCA)。协调阶段的重点是确保各个单独的嵌入在语义上彼此对齐，以便它们能够共同对最终预测做出贡献。与联合嵌入不同，协调嵌入允许每个模态保留其自身的特征结构，而不会过早地被强制进入共享的表示空间。

当模态在某种程度上独立或松散耦合，或存在大量特定于模态的数据，或计算资源允许进行更广泛的预训练时，此方法非常有效。协调嵌入还在模型架构和训练流程方面提供了更大的灵活性，因为每个模态可以在协调之前独立改进。

显式对齐 vs 隐式对齐

让我们尝试在这里列出我们的理解：

特征	显式对齐	隐式对齐
本质	监督 / 有注释	无监督 / 在训练中学习
对标签的需求	需要对齐或注释数据	不需要显式对齐
方法	手动或基于规则的映射	通过注意力或对比损失学习
示例任务	带边界框的图像描述	CLIP、使用无监督注意力的视觉问答 (VQA)
优势	高精度、可解释	可扩展、灵活、可学习细粒度关联

接下来，我们将尝试理解上一节中使用的另一个重要术语“融合”。

如果您想了解如何进行隐式对齐，请阅读此文。在这篇研究论文中，模型将图像片段（图像中的对象）和句子片段（类型化的依存树关系）嵌入到一个公共空间中。

MLLMs-6

让我们更深入地探讨一下。

多模态法LLM中的融合概念

多模态学习的基石在于理解如何有效地组合不同类型的数据。换句话说，它是一种在统一的维度空间中精确对齐不同模态的方法。融合策略决定了何时以及如何整合来自不同模态的信息，从根本上塑造了模型理解复杂多模态输入的能力。

融合是指将来自文本、图像和音频等多种模态的信息整合成一个统一的表示。它在使模型能够利用来自每种模态的互补信息方面发挥着至关重要的作用。目标是将特征组合起来，使模型能够做出更明智的预测。这与我们在深度学习中使用的融合概念非常相似。

融合有两种广泛使用的策略：早期融合和晚期融合。

早期融合和晚期融合

Source – Medium

此外，还有第三种类型——中期融合，稍后我会对此进行解释。

1. 早期融合

早期融合代表了最简单的多模态集成方法，在进行任何处理之前，不同模态的原始数据在输入层就被组合在一起。在早期融合系统中，来自不同来源的数据（例如图像的像素值和标记化的文本）在处理流程的初始阶段通过简单的操作进行连接或组合。这种方法允许从计算的最初阶段开始进行模态之间的全面交互，从而使模型能够捕捉到在后期融合方法中可能丢失的细微关联和依赖关系。

流程：原始模态 -> 特征提取（低级特征）-> 连接/简单组合 -> 由单个模型进行联合处理。
优点：它允许模型从最初阶段学习模态之间的关联和交互。它在概念上也更简单。
缺点：如果模态的结构或尺度差异很大，则可能难以有效实施。组合后的特征空间可能变得非常高维且难以处理。它在早期强制采用“一刀切”的处理方法，这可能并非对每种模态都最优。

例如：早期的尝试可能涉及将图像展平，然后将其与文本嵌入连接，然后再将其输入神经网络。由于其局限性，这在现代复杂的多模态LLM中并不常见。

2. 后期融合

后期融合采用相反的方法，通过专门的网络独立处理每种模态，然后在决策层合并结果。在这里，单独的神经网络使用针对特定模态优化的架构来处理每种数据类型，例如用于图像的卷积神经网络，用于文本的Transformer架构和用于图像的VIT架构。然后，使用加权平均、连接或更复杂的融合模块等技术将这些专门处理器的输出组合起来。

流程：模态A -> 模型A -> 输出A；模态B -> 模型B -> 输出B。然后，将输出A和输出B组合起来（使用平均、投票、小型神经网络等）。
优点：它允许使用最适合每种模态的模型对其进行优化和专门处理。如果您已经拥有强大的单模态模型，则实现起来会更简单。它在缺失模态的情况下也更稳健。
缺点：由于模态之间的低级特征被单独处理的时间过长，它无法捕捉这些特征。此外，融合发生得太晚，不足以影响每个模态流中的特征学习。

示例：图像分类器识别图像中的物体，文本分类器分析标题。然后，一个单独的模块会组合/融合这些分类，以判断标题是否准确地描述了图像。

3. 中期融合

中期融合通过在网络的各个中间层整合多模态信息，在早期方法和晚期方法之间取得平衡。这种策略使模型能够捕捉低级跨模态交互和高级语义关系。中期融合架构通常采用注意力机制或专门的传输模块，允许信息在整个网络中的多个点上在特定模态的处理流之间流动。多模态传输模块 (MMTM) 采用这种方法，通过挤压和激励操作，基于来自多模态的信息重新计算每个 CNN 流中的通道特征。

流程：模态 A -> 部分处理 A -> 特征 A；模态 B -> 部分处理 B -> 特征 B。然后，特征 A 和特征 B 被组合并输入到联合多模态处理网络中。
优点：它允许专门的初始处理，同时仍使模型能够在更深的特征层面学习丰富的跨模态关系。它还提供了更大的灵活性。
缺点：设计和训练可能更复杂。在这种情况下，找到最佳融合点和方法可能具有挑战性。

示例：大多数现代视觉语言模型（如 LLaVA）都采用这种方法。图像编码器将图像处理成一组特征向量，文本编码器将文本处理成标记嵌入。然后，它们被投影并组合，以便中央 LLM 能够同时处理两者。

核心编码器架构

现在，让我们尝试对 VLMS 中一些广泛使用的编码器进行更全面的理解。

CLIP：对比语言-图像预训练

CLIP 代表了多模态学习的一项基础性突破，它引入了一种简单而强大的方法，通过对比预训练来学习图像和文本的联合表征。该架构由两个独立的编码器组成：一个处理图像的视觉编码器和一个处理自然语言描述的文本编码器。这两个编码器使用对比目标进行联合训练，该目标鼓励模型将图像与其对应的文本描述关联起来，同时将它们与不相关的文本-图像对区分开来。

CLIP：对比语言-图像预训练

Source – Medium

CLIP 的训练过程包括向模型提供 n 个图像-文字对的批次（为了便于理解上图，假设 n=5），其中每幅图像都与其正确的文本描述配对。该模型会计算批次中所有图像和文本的嵌入，从而创建两组 n 维向量。

对比损失函数鼓励正确的图像-文字对之间保持较高的相似度，同时惩罚不正确图像-文字对之间的高相似度。正如我们在上图中看到的，对角线权重将被最大化，其余部分将受到惩罚。从数学上讲，这表示为相似度得分的对称交叉熵损失，其中温度参数控制分布的锐度。

CLIP 的有效性源于它能够从互联网上自然生成的图像-文字对（从网络上抓取的 4 亿条信息）中进行学习，从而无需手动注释数据集。这种方法使模型能够学习丰富的语义关系，并能够很好地推广到下游任务。学习到的表征展现出卓越的零样本能力，使模型能够对训练过程中从未见过的类别执行图像分类和检索任务。CLIP 的成功启发了众多后续研究，并确立了对比预训练作为多模态学习的主导方法的地位。

SigLIP：Sigmoid损失函数提升效率

SigLIP 代表了 CLIP 架构的演进，它解决了原始对比方法的一些计算限制。CLIP 需要计算批次中所有图像和文本对之间的相似度，而 SigLIP 则采用了成对的 Sigmoid 损失函数，可以独立地对各个图像-文本对进行运算。这种改进无需全局查看批次中所有成对的相似度，从而能够在保持或提升性能的同时，更高效地扩展到更大的批次大小。

SigLIP 中使用的 Sigmoid 损失函数相比传统的对比损失函数具有诸多优势。它提供了更稳定的训练机制和更小批量下更佳的性能，使得该方法在有限的计算资源下更容易上手。损失函数的成对特性使得训练配置更加灵活，并能够更好地处理每个样本包含不同数量正例的数据集。

SigLIP 的架构保留了 CLIP 的双编码器结构，但融入了架构改进和训练优化，从而提升了效率和效果。该模型使用独立的图像和文本编码器为两种模态生成表征，其中 S 型损失函数鼓励匹配对之间的相似性和非匹配对之间的差异性。该方法在各种图文任务中展现出卓越的性能，同时与传统的对比方法相比，计算效率更高。

SigLIP：Sigmoid损失函数提升效率

Source: cdn.hashnode

RoPE：旋转位置嵌入

虽然 RoPE 不能被视为编码器模型，但它无疑是一种在大型语言模型中广泛使用的嵌入策略。

旋转位置嵌入 (RoPE) 代表了一种在基于 Transformer 的架构中编码位置信息的复杂方法。 RoPE 使用旋转矩阵对绝对位置信息进行编码，同时在自注意力机制中自然地包含显式的相对位置依赖关系。这种方法提供了一些宝贵的特性，包括可以灵活地扩展到任意序列长度、随着相对距离的增加而衰减标记间依赖性，以及能够为线性自注意力机制配备相对位置编码。

RoPE 的数学基础在于根据嵌入向量在序列中的位置对其应用旋转矩阵。这种基于旋转的方法确保嵌入向量之间的点积能够同时捕捉内容相似性和相对位置关系。RoPE 的衰减特性意味着序列中距离较远的标记的注意力权重会自然降低，这与许多自然语言和多模态任务非常契合，在这些任务中，局部上下文通常比远距离上下文更重要。

RoPE：旋转位置嵌入

Source – pbs.twing

在多模态应用中，RoPE 使模型能够更有效地处理可变长度序列，这在处理多模态数据时至关重要，因为不同模态可能具有不同的时间或空间特征。 RoPE 能够推断出比训练期间看到的更长的序列，这对于需要处理不同输入格式和长度的多模态模型来说特别有价值。

视觉语言模型案例研究

现在，让我们看看这些概念和组件是如何在一些开源且颇具影响力的多模态语言模型 (LLM) 中融合的，尤其关注它们如何“看”。

1. LLaVA（大型语言和视觉助手）

LLaVA 的核心理念是证明一个非常简单的架构能够通过使用单个可训练的线性投影层，高效地将预训练的视觉编码器（来自 CLIP）连接到预训练的大型语言模型 (Vicuna)，从而实现令人印象深刻的视觉推理能力。它利用这些单模态模型强大的现有能力进行多模态理解。

LLaVA（大型语言和视觉助手）

训练过程

LLaVA 使用预训练的 Vicuna LLM 和 CLIP 视觉编码器组件。训练过程分为两个阶段：

阶段 1：视觉特征对齐（预训练）

目标：训练投影层将视觉特征映射到 LLM 的词向量空间。
数据：概念字幕 (CC3M) 的一个子集，包含图像-字幕对。
方法：图像输入（冻结的）CLIP-ViT。输出的视觉特征通过（可训练的）线性投影层。这些投影的视觉标记会被添加到标记化的字幕中。然后，Vicuna LLM（冻结的）负责自回归预测字幕。仅更新线性投影层的权重。

阶段 2：指令微调（端到端）

目标：提升模型遵循指令和进行复杂视觉对话的能力。
数据：一个小型、高质量的合成数据集 (LLaVA-Instruct-158K)，使用 GPT-4 创建关于图像、详细描述和复杂推理任务的各种问题。该数据集包括：多模态对话 (58k)、图像的详细文本描述 (23k) 以及复杂推理/复杂视觉问答 (77k)。
方法：投影层和 LLM 权重均基于该指令数据集进行微调。LLM 的输入是投影图像特征和文本指令/问题的组合。

工作原理

LLaVA 模型处理的输入可以是文本、图像或两者的组合。其工作原理如下：

文本输入：Vicuna 的原生分词器和嵌入系统通过对提供的文本（例如问题）进行分词和嵌入，为 LLM 做好准备。
图像输入：CLIP 视觉编码器（具体来说是其 Vision Transformer，ViT）从图像中提取丰富的视觉特征。这些特征通常表示图像块，是一个向量序列。
投影：这些视觉特征向量随后经过 MLP 投影层。该层执行线性变换，将视觉特征投影到与 Vicuna 的词嵌入相同的维度。这使得视觉信息在 LLM 看来“像”单词分词。
将组合输入输入到 LLM：模型随后将投影的视觉标记与文本标记嵌入进行组合（例如，将视觉标记添加到文本标记的前面）。
LLM 处理（融合与推理）：此组合序列被输入到 Vicuna LLM。LLM 的注意力机制会同时处理这两种类型的标记。这就是“融合”发生的地方，它允许模型将文本的各个部分与相关的视觉标记关联起来。目标是实现联合嵌入（共享表示空间）和隐式对齐（将视觉概念与文本概念连接起来）。
输出生成：基于处理后的组合输入，LLM 自回归地生成对查询或指令的文本响应。

多模态生成

简化版本

LLaVA 查看图像并使用 CLIP（视觉编码器）为图像创建字幕。一个特殊的翻译器（投影层）将这些字幕转换为 Vicuna LLM 能够理解的语言。然后，Vicuna 大脑会读取翻译后的字幕和任何实际的文本单词（例如您的问题）。最后，Vicuna 大脑会利用所有这些信息，在文本中给出答案。

编码器-解码器架构

虽然 LLaVA 并非传统的序列到序列翻译意义上的编码器-解码器，但它使用了以下组件来充当以下角色：

视觉编码器：一个预训练的 CLIP ViT-L/14。该模型输入图像并输出视觉嵌入（特征）。
语言模型（充当解码器）：Vicuna（一个指令调优的 Llama 变体）。它将视觉嵌入（投影后）和文本嵌入作为输入，并通过自回归生成文本输出。
连接器/投影器（“桥接器”）：一个线性多层感知器 (MLP) 层。这是将视觉特征从视觉编码器的空间转换到 LLM 的输入嵌入空间的关键新组件。

优势

简洁高效：相对简单的架构和高效的训练（尤其是第一阶段）带来了卓越的性能。
充分利用预训练模型：有效利用强大且易于获取的预训练视觉 (CLIP) 和语言 (Vicuna) 模型。
经济高效的微调：初始特征对齐阶段仅训练一个较小的投影层，从而降低计算成本。
指令遵循：LLaVA-Instruct-158K 数据集对于实现强大的对话和指令遵循能力至关重要。
开源：为视觉语言模型的开源研究做出了重大贡献。

局限性

粒度（早期版本）：原始 LLaVA 通常依赖于单个全局特征向量或图像中的小序列（例如 [CLS] 标记特征），这可能会限制对非常精细细节或复杂空间关系的理解。（后续版本，例如 LLaVA-1.5，通过使用更多块特征和 MLP 投影仪改进了这一点）。
幻觉：有时会“幻觉”图像中不存在的物体或细节，这是 LLM 的常见问题。
推理深度：虽然很好，但与更大、训练更广泛的模型相比，对非常复杂的场景或抽象视觉概念的推理可能会受到限制。
数据集依赖性：性能在很大程度上受到指令调整数据集的质量和性质的影响。

2. Llama 3 Vision (Llama 3.1 Vision 8B / 70B)

Llama 3 Vision 旨在通过将强大的视觉编码器与 Llama 3 LLM 的强大基础相结合，构建最先进的开源多模态模型。其核心理念是利用 Meta 在 LLM、视觉模型和大规模训练方法方面的进步，创建能够执行复杂视觉推理、理解细微视觉细节并遵循涉及图像和文本的复杂指令的模型。

Llama 3 Vision

Source – Medium

训练过程

Llama 3 Vision 模型利用预训练的 Llama 3 LLM 和强大的预训练视觉编码器（例如 CLIP ViT）。训练策略通常包括：

第一阶段：大规模多模态预训练

目标：大规模地教授模型基本的视觉概念及其与语言的深度关联。
数据：来自不同来源（例如，公开的网络数据、授权数据集）的数十亿个图文对。Meta 可以访问海量（匿名且隐私保护的）图文数据。
方法：视觉编码器、投影模块（例如，双层多层感知器 (MLP)）和 Llama 3 LLM 进行联合训练。该模型学习预测与图像相关的文本或文本/图像中被遮罩的部分。此阶段训练投影模块，并对视觉编码器和 LLM 进行微调，以实现多模态理解。

第二阶段：指令微调（端到端）

目标：增强模型遵循不同指令、参与对话以及执行特定多模态任务的能力。
数据：精选的高质量多模态指令遵循数据集，包括视觉问答 (VQA)、图像字幕、视觉推理、物体定位、图像光学字符识别 (OCR)、图表/示意图理解等。
方法：基于这些指令数据集对整个模型（或其重要部分）进行微调，以提高其实用性、安全性和特定任务的性能。
缩放：Meta 强调缩放规律，这意味着 Llama 3 Vision 受益于 LLM 大小（例如，从 8B 到 70B）、视觉编码器大小以及训练数据量和质量的提升。

指令微调（端到端）

Source – Medium

工作原理

Llama 3 Vision 处理图像和文本输入以生成文本输出。

文本输入：使用 Llama 3 的高级分词器（例如 128k 词汇量）对文本（例如问题、说明）进行分词，并将其转换为分词向量。
图像输入：输入图像经过预处理（例如，缩放到 Llama 3.1 Vision 的 448×448 分辨率）。然后，图像被输入到强大的视觉编码器（例如 CLIP ViT 模型）中。视觉编码器处理图像并输出一系列视觉向量，代表多个图像块（例如，Llama 3.1 Vision 从 CLIP ViT-L/14 模型中生成 144 个视觉分词）。
投影：这些视觉向量通过投影模块，通常是多层感知器（例如 Llama 3.1 Vision 中的双层多层感知器 (MLP)）。投影器将这些视觉特征转换为与 Llama 3 LLM 输入空间兼容的嵌入向量。
LLM 的组合输入：投影的视觉标记与文本标记嵌入向量组合。可以使用特殊的图像标记来划分序列中的视觉信息。
LLM 处理（融合与推理）：Llama 3 LLM 处理这种交错的视觉和文本标记序列。其复杂的注意力机制（分组查询注意力机制，可提高长序列的效率）使其能够深度整合和关联来自两种模态的信息。这使得在非常细粒度的级别上实现联合嵌入和隐式对齐成为可能。
输出生成：LLM 利用其丰富的预训练知识、详细的视觉信息和文本上下文进行推理，并生成连贯且相关的文本响应。

简化版本

Llama 3 Vision 使用非常敏锐的 ViT 变体模型来观察图像，将其分解为许多详细的图像词（图像块信息）。投影仪将这些详细的图像字幕准备好，供超级智能的 Llama 3 LLM 使用。Llama 3 大脑会读取这些字幕以及您提出的任何文本问题。由于 Llama 3 大脑规模庞大且训练有素，它可以理解图片中的复杂内容，并在文本中提供非常详细且智能的答案。

编码器-解码器架构

与 LLaVA 类似，它采用视觉编码器 + 投影仪 + LLM 架构：

视觉编码器：一个强大的、经过预训练的视觉转换器。对于 Llama 3.1 Vision，这是一个 CLIP ViT 模型，可能是一个大型变体。
语言模型（充当解码器）：Llama 3 模型（例如 Llama 3 8B 或 Llama 3 70B），它是一个自回归解码器。
连接器/投影仪：一个可学习的模块，通常是 MLP（例如，Llama 3.1 Vision 的两层 MLP），用于将 ViT 输出中的视觉特征序列映射到 LLM 的输入嵌入空间。

Llama 3 Vision 模型图像解码

Source – Medium

优势

一流的性能：凭借规模化和先进的训练方法，力求在广泛的视觉语言基准测试中取得顶级性能。
规模化：得益于大型基础 LLM（Llama 3 8B、70B）、强大的视觉编码器和海量训练数据集。
强大的基础 LLM：基于性能强大的 Llama 3 模型构建，该模型以出色的文本生成和推理能力而闻名。
改进的推理能力和减少幻觉：对高质量、多样化的数据进行广泛的预训练和微调，有助于改进推理能力并减少幻觉。
高级功能：在 OCR、图表/图形理解和细粒度视觉细节识别等领域表现出色。
架构改进：利用 LLM 的进步，例如分组查询注意力 (GQA)，高效处理长序列（包括视觉标记）。

局限性

计算成本：较大的模型（例如 70B）需要大量的计算资源进行训练和推理。
数据依赖性和偏差：性能和潜在偏差仍然取决于用于训练的庞大数据集。确保公平性和减少有害偏差是一项持续的挑战。
幻觉：虽然有所降低，但产生看似合理但实际错误信息（幻觉）的风险仍然存在，尤其是在输入分布不均或高度模糊的情况下。
复杂性：与更简单的模型相比，规模和复杂性的增加会使最终用户的调试、解释和微调更具挑战性。

Llama 4的进展

虽然 Llama 4 的具体、经过验证的细节仍在不断涌现，但围绕其进展的讨论通常集中在如何应对大规模多模态学习的固有挑战，特别是通过混合专家 (MoE) 等架构创新来实现。

Llama 4的进展

Source – scontent

1. 利用MoE解决计算复杂性和可扩展性问题

Llama 4 的一个关键概念改进是 MoE 的有效实现。该架构通过仅激活相关专家，显著降低了计算成本。这在增强模型容量的同时，还能保持训练和推理的计算负载可控。

这种效率对于处理日益庞大、高分辨率的多模态数据集和长序列至关重要，否则这些数据集和序列长度会受到传统注意力机制二次扩展的瓶颈限制。这也支持更广泛的可扩展性解决方案，使模型能够从更广泛、更多样化的数据中学习。

2. 改进的异构数据对齐

凭借 MoE 提供的能力和训练策略的进步，Llama 4 将致力于对图像和文本等不同模态进行更复杂的对齐。这涉及开发更鲁棒的表示，以捕捉特定模态的特征（例如，视觉中的空间相关性、文本中的语义规则），同时实现更深入的跨模态理解和交互。

Llama4 架构还提到了使用早期融合机制 (Early Fusion) 将嵌入对齐到统一的表示空间。虽然这不是其主要目的，但如果使用合适的数据进行训练，MoE 框架内容量的提升和专业化可以间接地帮助更好地处理不同模态之间的统计差异甚至时间差异。

3. 增强鲁棒性和偏差缓解

像 Llama 4 这样的模型预计将采用更先进的策略来解决遗传偏差并提高整体鲁棒性。Llama 4 的目标是：

在预训练和微调过程中实施更全面的偏差缓解技术，以减少跨模态交互对偏差的放大。
增强对输入质量变化、分布外数据以及可能利用跨模态漏洞的对抗性攻击的抵御能力。目标是在更广泛的实际场景中实现更可靠、更安全的性能。

小结

多模态LLM的演进代表了人工智能领域最重要的进步之一，它从根本上改变了机器感知和与周围世界交互的方式。从早期融合和晚期融合的基础概念，到像Llama 4这样的现代系统的复杂架构，我们追溯了使人工智能系统能够以类似人类的复杂度理解和处理多模态信息的技术历程。我们探索的技术基础，包括对比学习原理、联合嵌入空间和对齐机制，提供了使多模态理解成为可能的理论框架。

我们对LLaVA、Llama 3.2 Vision和Llama 4的案例研究展现了多模态能力的快速发展。LLaVA证明了，通过视觉指令调整，优雅的简洁性可以取得显著的效果。Llama 3.2 Vision展示了复杂的交叉注意力机制如何实现鲁棒的多模态推理。Llama 4代表了当前最先进的技术，它引入了混合专家架构和前所未有的上下文长度，从而开辟了全新的应用类别。在本系列的第二部分中，我们将探讨这些多模式 LLM 如何理解音频。

LLM 多模态

详解多模态大型语言模型 (LLM) 的运作机制：以愿景为主题的故事

多模态的挑战

表征学习

联合表征