八种专业人工智能模型详解:架构、核心能力和行业应用

八种专业人工智能模型详解:架构、核心能力和行业应用

不到十年前,与计算机进行有意义的对话还只是科幻小说。但如今,数百万人每天都在与人工智能助手聊天,根据文字描述创作令人惊叹的艺术作品,并使用这些人工智能工具/系统来理解图像并执行高级任务。这一进步得益于众多专业的人工智能模型,每种模型都有其独特的功能和应用。本文将介绍八种正在重塑数字格局,甚至可能塑造我们未来的专业人工智能模型。

1. LLM:大型语言模型

还记得那些人类与计算机正常对话的科幻电影吗?大型语言模型营造了一种让科幻变成现实的氛围。这些模型能够理解并生成人类语言,构成了现代人工智能助手的支柱。

LLM的架构

LLM 本质上是建立在由堆叠的编码器和/或解码器模块组成的 Transformer 之上的。此处,典型的实现包括以下内容:

  • 多头注意力层:不同的注意力层使模型能够同时关注输入的不同部分,每层计算 Q、K、V 矩阵。
  • 前馈神经网络:当这些网络接收注意力的输出时,它们会实现两个线性变换,并在其间插入一个非线性激活函数,通常是 ReLU 或 GELU。
  • 残差连接和层归一化:通过允许梯度在深度网络中流动并对网络激活函数进行归一化,使训练更加稳定。
  • 位置编码:当 Transformer 并行处理 token 时,它使用正弦或学习到的位置嵌入来注入位置信息。
  • 多阶段训练:在精选数据集上进行微调之前进行预训练,然后进行对齐,RLHF 是其中一种方法。

LLM的架构

LLM的主要特点

  • 自然语言理解与生成
  • 基于长词法单元的语境感知
  • 基于海量训练数据的知识表征
  • 零样本学习(无需任何特定训练即可执行任务的能力)
  • 情境学习,即通过示例适应新格式的能力
  • 具有复杂的多步骤推理能力的指令跟踪能力
  • 用于解决问题的思维链式推理能力

LLM的典型示例

  • GPT-4 (OpenAI):最先进的语言模型之一,具有多模态能力,为 ChatGPT 和数千个应用程序提供支持。
  • Claude (Anthropic):以提供深思熟虑、细致入微的输出和出色的推理能力而闻名。
  • Llama 2 和 3 (Meta):强大的开源模型,将人工智能推向大众。
  • Gemini (Google):Google 最先进的模型,具有强大的推理能力和多模态能力。

LLM的用例

想象一下,您是一位内容创作者,正遭遇写作瓶颈。LLM 可以帮您构思创意、创建文章提纲或撰写内容草稿供您润色。想象一下,您是一位面临编程问题的开发者;这些模型可以调试您的代码、提出解决方案,甚至用通俗易懂的英语解释复杂的编程概念或术语。

2. LCM:大型概念模型

LLM 专注于语言,而 LCM 则侧重于理解思想之间更深层次的概念关系。你可以将它们视为掌握概念而非单纯词语的模型。

LCM的架构

LCM 建立在 Transformer 架构之上,并包含用于概念理解的专用组件,这些组件通常包括:

  • 增强型交叉注意力机制:将文本标记连接到概念表征,并将词语连接到底层概念。
  • 知识图谱集成:将结构化知识直接集成到架构中,或通过预训练目标间接集成。
  • 分层编码层:这些层级捕获不同抽象层次的概念,从具体实例到抽象类别。
  • 多跳推理模块:允许通过多个步骤跟踪概念关系链。

LCM的架构

预训练通常针对概念预测、概念消歧、层次关系建模以及从抽象到具体的映射。此外,许多实现采用专门的注意力机制,为与概念相关的标记分配与与一般上下文相关的标记不同的权重。

LCM的主要特点

  • 将抽象概念概念化,超越语言的表层
  • 出色的逻辑和因果推理能力
  • 提升常识推理和推理能力
  • 连接不同领域相关概念
  • 层次结构的语义概念
  • 概念消歧和实体链接
  • 类比和迁移学习
  • 从不同信息源构建知识

LCM的典型示例

  • Gato (DeepMind):一个使用简单模型执行数百项任务的通用智能体。
  • 悟道 2.0(北京人工智能研究院):一个用于概念理解的超大型多模态人工智能系统。
  • Minerva (Google):专注于数学和科学推理。
  • Flamingo (DeepMind):将视觉理解和语言理解与概念框架连接起来。

LCM的用例

对于试图将来自不同科学论文的见解串联起来的研究人员来说,LCM 可以揭示原本隐藏的概念联系。教育工作者可能会与 LCM 合作设计教学材料,以增强概念学习而不是直接记忆。

3. LAM:大型行动模型

大型行动模型是人工智能进化的下一阶段,这些模型不仅能够理解或生成内容,还能在数字环境中采取有意义的定向行动。它们充当理解与不行动之间的桥梁。

LAM的架构

LAM 通过多组件设计将语言理解与行动执行相结合:

  • 语言理解核心:基于 Transformer 的 LLM,用于处理指令并生成推理步骤。
  • 规划模块:分层规划系统,将高级目标分解为可操作的步骤,通常使用蒙特卡洛树搜索或分层强化学习等技术。
  • 工具使用接口:用于外部工具交互的 API 层,包括发现机制、参数绑定、执行监控和结果解析。
  • 记忆系统:短期工作记忆和长期情景记忆都用于在操作之间维护上下文。

LAM的架构

计算流程经历了指令生成和解释、规划、工具选择、执行、观察和计划调整的循环。训练通常结合使用监督学习、强化学习和模仿学习等方法。另一个关键特征是“反射机制”,模型会判断其行为的效果并相应地调整应用策略。

LAM的主要特点

  • 根据自然语言形式传递的指令采取行动
  • 进行多步骤规划以实现所需的目标
  • 无需人工干预即可使用工具和进行 API 交互
  • 从演示中学习,而非通过编程
  • 接收环境反馈并进行自我调整
  • 单智能体决策,将安全放在首位
  • 状态跟踪和跨序列交互
  • 自我纠正和错误恢复

LAM的典型示例

  • AutoGPT:用于任务执行的实验性自主 GPT-4。
  • Claude Opus 及其工具:通过函数调用实现复杂任务的高级自主性。
  • LangChain Agents:用于创建面向行动的 AI 系统的框架。
  • BabyAGI:自主任务管理和执行的演示。

LAM的用例

想象一下,要求人工智能“研究当地承包商,汇总他们的评级,并安排与排名前三的承包商就我们的厨房装修项目进行面谈”。LAM 可以执行此类需要理解和行动相结合的多步骤复杂任务。

4. MoE:多专家模型

多专家模型 (MoE) 的设计理念是将专家视为一个整体,而非单一的通才。这些模型包含多个专家神经网络,每个网络都经过训练,用于研究特定任务或知识领域。

多专家模型 (MoE) 的架构

多专家模型 (MoE) 实现条件计算,使不同的输入激活不同的专用子网络:

  • 门控网络:输入被发送到相应的专家子网络,决定模型中的哪些记忆应该处理每个标记或序列。
  • 专家网络:多路专用神经网络子网络(专家),通常是嵌入在变换块中的前馈网络。
  • 稀疏激活:每个输入仅激活一小部分参数。这是通过 Top-k 路由实现的,其中只有得分最高的专家才被允许处理每个标记。

多专家模型 (MoE) 的架构

现代实现用 MoE 层取代了 Transformer 中的标准 FFN 层,从而保持注意力机制的稠密性。训练过程中采用了负载平衡、损失函数和专家 dropout 等技术,以避免病态的路由模式。

MoE的主要特点

  • 无需比例计算即可高效扩展到海量参数
  • 实时将输入路由到专用网络
  • 由于条件计算,参数效率更高
  • 更适用于特定领域任务
  • 新输入时实现优雅降级
  • 更擅长处理多领域知识
  • 训练时减少灾难性遗忘
  • 领域平衡的计算资源

MoE的典型示例

  • Mixtral AI:一个采用稀疏混合专家架构的开源模型。
  • Switch Transformer(谷歌):最早的 MoE 架构之一。
  • GLaM(谷歌):谷歌基于 MoE 架构的语言模型,拥有 1.2 万亿个参数。
  • Gemini Ultra(谷歌):采用基于 MoE 的方法来提升性能。

MoE的用例

假设一家企业需要一套 AI 系统来处理和管理从客户服务到技术文档再到创意营销等所有事务。MoE 模型最擅长这种灵活性,因为它能够根据正在执行的任务调动不同的“专家”来执行任务。

5. VLM:视觉语言模型

简而言之,VLM 是视觉与语言之间的纽带。VLM 能够理解图像并使用自然语言传达信息,本质上赋予 AI 系统观察和讨论所见内容的能力。

VLM的架构

VLM 通常采用双流架构,分别处理视觉流和语言流:

  • 视觉编码器:通常是一个视觉转换器 (ViT) 或卷积神经网络 (CNN),它将图像细分为多个块并进行嵌入。
  • 语言编码器-解码器:通常是一个基于转换器的语言模型,以文本作为输入和输出。
  • 跨模态融合机制:该机制通过以下方式连接视觉流和语言流:
    • 早期融合:将视觉特征投射到语言嵌入空间
    • 后期融合:分别处理,然后在更深层次上与注意力机制连接。
    • 交错融合:整个网络应有多个交互点。
    • 连接嵌入空间:一种统一的表示形式,其中视觉概念和文本概念将被映射到可比较的向量。

预训练通常采用多目标训练方案,包括图文对比学习、基于视觉语境的掩码语言建模、视觉问答和图像字幕。这种方法可以培养能够跨模态灵活推理的模型。

VLM的架构

Source: VLMs

VLM的主要功能

  • 解析并整合视觉和文本信息
  • 图像理解和细粒度描述能力
  • 视觉问答与推理
  • 场景解读,包含对象和关系识别
  • 关联视觉和文本概念的跨模态推理
  • 基于视觉输入生成文本
  • 图像内容的空间推理
  • 理解视觉隐喻和文化典故

VLM的典型示例

  • GPT-4 (OpenAI):GPT-4 的视觉化版本,可以分析和讨论图像。
  • Claude 3 Sonnet/Haiku (Anthropic):具有强大视觉推理能力的模型。
    Gemini Pro Vision (Google):跨文本和图像的高级多模态能力。
  • DALLE-3 和 Midjourney:虽然主要以图像生成而闻名,但它们也融入了视觉理解的元素。

VLM的用例

想象一下,一位皮肤科医生上传了一张皮肤状况的图像,AI 会立即通过推理给出可能的诊断。又或者,一位游客用手机对准某个地标,就能立即了解其历史意义和建筑细节。

6. SLM:小型语言模型

人们很少关注越来越大的模型,但我们常常忘记小型语言模型 (SLM) 涵盖了一个同样重要的趋势:人工智能系统旨在在无法访问云的个人设备上高效运行。

SLM的架构

SLM 开发了专门的技术来优化计算效率:

  • 高效的注意力机制:标准自注意力机制的替代系统,其规模呈二次方增长,包括:
    • 线性注意力机制:通过核近似将复杂度降低到 O(n)。
    • 局部注意力机制:仅在局部窗口内进行关注,而不是关注整个序列。
  • 状态空间模型:另一种具有线性复杂度的序列建模方法。
  • 参数高效的 Transformer:减少参数数量的技术包括:
    • 低秩分解:将权重矩阵分解为较小矩阵的乘积。
    • 参数共享:跨层重用权重。
    • 深度可分离卷积:用更高效的层替换密集层。
  • 量化技术:通过训练后量化、量化感知训练或混合精度方法,降低权重和激活函数的数值精度。
  • 知识蒸馏:通过基于响应、基于特征或基于关系的蒸馏模型,迁移大型模型中封装的知识。

所有这些创新使得 1-10B 参数的模型能够在消费设备上运行,其性能接近更大规模的云托管模型。

SLM的架构

Source: SLMs

SLM的主要特点

  • 执行完全在应用内进行,无需依赖云或连接。
  • 增强数据隐私,因为数据永远不会从设备卸载。
  • 由于无需网络往返,因此能够提供快速响应。
  • 节能省电。
  • 完全离线操作,无需检查远程服务器,尤其适用于高度安全或远程环境。
  • 更便宜,无 API 使用费。
  • 可针对特定设备或应用进行升级。
  • 它专注于特定领域或任务的互利共赢。

SLM的典型示例

  • Phi-3 Mini(微软):这是一个拥有 38 亿个参数的模型,其性能在同等规模下表现优异。
  • Gemma(谷歌):一系列轻量级开放模型,旨在用于设备端部署。
  • Llama 3 8B(Meta):Meta Llama 系列模型的小型化版本,旨在实现高效部署。
  • MobileBERT(谷歌):专为移动设备量身定制,同时保持与 BERT 类似的性能。

SLM的用例

SLM 可以真正帮助那些几乎没有网络连接但需要可靠 AI 支持的用户。注重隐私的客户可以选择将不必要的私人数据保存在本地。那些希望在资源受限的环境中为应用提供强大 AI 功能的开发者也可以充分利用它。

7. MLM:掩码语言模型

掩码语言模型运用一种不同寻常的语言理解方式:它们通过找出填空练习的答案来学习,并在训练过程中随机“掩盖”一些单词,以便模型必须从周围的上下文中找到缺失的标记。

MLM的架构

MLM 实现了双向架构,以实现整体的上下文理解:

  • 仅编码器的 Transformer:与严格从左到右处理文本的基于解码器的模型不同,MLM 通过编码器模块双向关注整个上下文。
  • 掩码自注意力机制:每个标记可以通过缩放的点积注意力机制关注序列中的所有其他标记,而无需应用任何因果掩码。
  • 标记、位置和句段嵌入:这些嵌入组合形成包含内容和结构信息的输入表示。

预训练目标通常包括:

  • 掩码语言模型 (MLM):将随机标记替换为掩码标记,然后模型根据双向上下文预测原文。
  • 下一句预测:确定原文中两个片段是否连续,尽管像 ROBERTa 这样的较新变体删除了这一功能。

该架构生成的是上下文敏感的标记表示,而不是下一个标记预测。基于此,MLM 更倾向于用于理解任务,而非生成任务。

MLM的架构

Source: MLMs

MLM的主要特点

  • 双向建模利用更广泛的语境来增强理解
  • 更深入地进行语义分析和分类
  • 强大的实体识别和关系提取
  • 用更少的样本进行表征学习
  • 结构化提取领域的领先技术
  • 对下游任务具有很强的迁移能力
  • 基于语境的词语表征,可处理多义性
  • 易于针对特定领域进行微调

MLM的典型示例

  • BERT(谷歌):首个为 NLP 带来范式转变的双向编码器模型
  • RoBERTa(Meta):一个经过稳健优化的 BERT 模型,可提供更优的训练方法
  • DeBERTa(微软):一个采用解耦注意力机制的增强型 BERT 模型
  • ALBERT(谷歌):一个采用参数高效技术的轻量级 BERT 平台

MLM的用例

想象一下,一位律师必须从数千份合同中提取一些条款。MLM 非常适合这种有针对性的信息提取,即使描述差异很大,它也能提供足够的语境来识别相关的信息。

8. SAM:任意分割模型

任意分割模型 (SAM) 是计算机视觉领域的一项专业技术,用于以近乎完美的精度从图像中识别和分离物体。

SAM的架构

SAM 的架构由多个组件组成,用于图像分割:

  • 图像编码器:它是一个视觉转换器主干,对输入图像进行编码以生成密集的特征表示。SAM 使用 VIT-H 变体,该变体包含 32 个转换器块,每个块有 16 个注意力头。
  • 提示编码器:处理各种用户输入,例如:
    • 点提示:带有背景指示符的空间坐标。
    • 框提示:两点坐标
    • 文本提示:通过文本编码器处理
    • 掩码提示:编码为密集空间特征
  • 掩码解码器:一个结合图像和提示嵌入的Transformer解码器,用于生成掩码预测,由交叉注意力层、自注意力层和一个MLP投影头组成。

训练包含三个阶段:基于1100万个掩码的监督训练、模型蒸馏和针对特定提示的微调。该训练可以进行零样本迁移到未知目标类别和领域,从而广泛应用于其他分割任务。

SAM的架构

Source: SAM

SAM的主要特点

  • 零样本迁移到训练中从未见过的新对象和类别
  • 灵活的提示类型,包括点、框和文本描述
  • 在极高分辨率下实现像素级完美分割
  • 适用于所有类型图像的领域无关行为
  • 多对象分割,感知对象之间的关系
  • 通过提供多个正确分割来处理模糊性
  • 可以作为组件集成到更大的下游视觉系统中

SAM的典型示例

  • Segment Anything (Meta):Meta Research 的原创版本。
  • MobileSAM:针对移动设备优化的轻量级版本。
  • HQ-SAM:具有更佳边缘检测能力的更高质量版本。
  • SAM-Med2D:适用于医疗成像的医学版本。

SAM的用例

照片编辑人员可以使用 SAM 即时精确地将主体与背景分离,而手动操作则需要花费数分钟甚至数小时才能实现。另一方面,医生可以使用 SAM 变体来描绘诊断成像中的解剖结构。

您应该选择哪种模型?

模型的选择完全取决于您的需求:

模型类型 最佳使用场景 计算需求 部署选项 关键优势 限制
LLM 文本生成、客户服务和内容创作 非常高 云、企业服务器 多功能语言能力,通用知识 资源密集型,可能出现幻觉
LCM 研究、教育和知识组织 云、专业硬件 概念理解,知识连接 技术尚在发展,落地有限
LAM 自动化、工作流执行和自主代理 云(带 API 访问) 动作执行,工具使用,自动化 设置复杂,行为或不可预测
MoE 多领域应用,专业知识 中高 云、分布式系统 大规模效率,领域专长 训练复杂,路由开销大
VLM 图像分析、可访问性和视觉搜索 云、高端设备 多模态理解,视觉上下文 实时应用需大量计算资源
SLM 移动应用、隐私敏感和离线使用 边缘设备、移动端、浏览器 隐私保护,离线能力,可访问性 能力有限,不及大型模型
MLM 信息提取、分类、情感分析 中等 云、企业部署 上下文理解,针对性分析 不适合开放式生成
SAM 图像编辑、医学成像和物体检测 中高 云、GPU 工作站 精确视觉分割,交互式使用 专注分割,非通用视觉模型

小结

专用人工智能模型代表着改进之间的新突破。也就是说,机器能够越来越像人类一样理解、推理、创造和行动。然而,这个领域最令人兴奋的或许并非某一特定模型类型的前景,而是当这些模型类型开始融合时将会产生怎样的景象。这样的系统将整合LCM的概念理解、LAM的行动能力、MOE的高效选择能力以及VLM的视觉理解能力,所有这些似乎都通过SLM技术在您的设备上本地运行。

问题不在于这是否会改变我们的生活,而在于我们将如何利用这些技术来解决最大的挑战。工具已经存在,可能性无限,未来取决于它们的应用。

评论留言