
代理 AI 行业正在蓬勃发展,其价值超过 52 亿美元,预计到 2034 年将达到 2000 亿美元。我们正在进入一个 AI 将像互联网一样普及的时代,但其基础存在一个关键缺陷。当今的 AI 革命依赖于庞大且耗电的 LLM——而用于代理 AI 的 SLM 具有独特的优势可以解决这个问题。虽然 LLM 接近人类的能力令人印象深刻,但对于专门的任务来说,它们往往是大材小用,比如用大锤砸核桃。结果如何?成本高昂、能源浪费和创新受阻——而这些挑战正是用于代理 AI 的 SLM 直接解决的。
但还有更好的方法。NVIDIA 的研究论文“小型语言模型是代理 AI 的未来”揭示了 SLM(小型语言模型)如何提供更智能、更可持续的发展道路。让我们深入探讨为什么通常越小越好,以及 SLM 如何重塑 AI 的未来。
为何选择SLM?
未来并非取决于暴力破解式的规模,而是取决于规模合适的智能。
—— NVIDIA 研究论文
在理解为什么 SLM 是正确选择之前,我们先来了解一下 SLM 的真正含义。该论文将其定义为一种语言模型,它能够安装在常见的消费电子设备上,并以足够低的延迟进行推理,从而能够处理单个用户的代理请求。截至 2025 年,这通常包括参数数量低于 100 亿的模型。

Source: NVIDIA Research Paper
论文作者认为,SLM 不仅是 LLM 的可行替代方案,而且在很多情况下,它们都是更优的选择。他们基于以下三个关键支柱,提出了令人信服的论证:
- SLM 足够强大
- SLM 更经济实惠
- SLM 更灵活
让我们逐一分析一下这些论点。
SLM的惊人“威力”
人们很容易认为 SLM 不如大型模型性能强大。毕竟,“越大越好”的口号多年来一直是人工智能领域的驱动力。但最近的进展表明,情况已不再如此。
精心设计的 SLM 现在能够在各种任务上达到甚至超越更大型模型的性能。论文重点介绍了几个例子,包括:
- 微软的 Phi 系列:Phi-2 模型仅包含 27 亿个参数,其常识推理和代码生成得分却与包含 300 亿个参数的模型相当,而运行速度却提高了约 15 倍。小型模型 Phi-3(包含 70 亿个参数)的表现更为出色,其语言理解、常识推理和代码生成得分可与高达其大小 10 倍的模型相媲美。
- NVIDIA 的 Nemotron-H 系列:这些混合 Mamba-Transformer 模型的参数规模从 20 亿到 90 亿不等,其指令跟踪和代码生成准确率可与包含 300 亿个参数的密集 LLM 相媲美,但推理成本却仅为其一小部分。
- Huggingface 的 SmolLM2 系列:这一系列紧凑型语言模型的参数规模从 1.25 亿到 17 亿不等,其性能可与同一代包含 140 亿个参数的模型,甚至两年前的包含 700 亿个参数的模型相媲美。
以上只是几个例子,但信息很明确:说到绩效,规模并非一切。借助现代训练技术、激励和代理增强技术,SLM 可以发挥巨大作用。
小型化带来的“经济”案例
这正是 SLM 真正引人注目之处。在这个精打细算的世界里,SLM 的经济优势不容忽视。
- 推理效率:在延迟、能耗和 FLOP 方面,服务一个包含 70 亿个参数的 SLM 比服务一个包含 700 亿到 1750 亿个参数的 LLM 便宜 10 到 30 倍。这意味着您可以获得大规模的实时代理响应,而无需投入巨资。
- 微调敏捷性:需要添加新行为或修复错误?使用 SLM,您可以在数小时内完成,而不是数周。这允许快速迭代和调整,这在当今快节奏的世界中至关重要。
- 边缘部署:SLM 可以在消费级 GPU 上运行,这意味着您可以进行实时、离线的代理推理,并具有更低的延迟和更强的数据控制能力。这为设备端 AI 开辟了一个全新的无限可能。
- 模块化系统设计:无需依赖单一、庞大的逻辑推理模型 (LLM),您可以组合多个规模较小、功能专业的逻辑推理模型 (SLM) 来处理不同的任务。这种“类似乐高”的方法成本更低、调试速度更快、部署更便捷,并且更符合现实世界中智能体的操作多样性。
综合考虑所有这些因素,SLM 的经济效益是毋庸置疑的。它们比大型系统更便宜、更快速、更高效,对于任何想要构建经济高效、模块化且可持续的 AI 智能体的企业来说,SLM 都是明智之选。
为什么“一刀切”并非万能的
世界并非千篇一律,我们要求 AI 智能体执行的任务也并非千篇一律。这正是 SLM 灵活性的真正亮点所在。
由于 SLM 规模更小、训练成本更低,您可以为不同的智能体例程创建多个专用的专家模型。这使您能够:
- 适应不断变化的用户需求:需要支持新的行为或输出格式?没问题。只需对新的语言模型 (SLM) 进行微调即可。
- 遵守不断变化的法规:借助 SLM,您可以轻松适应不同市场的新法规,而无需重新训练庞大的单片模型。
- 民主化 AI:通过降低进入门槛,SLM 可以帮助实现 AI 的民主化,让更多人和组织参与语言模型的开发。这将带来更加多样化和创新的 AI 生态系统。
未来之路:克服采用障碍
如果 SLM 的前景如此强劲,为什么我们仍然如此痴迷于 LLM?本文指出了采用的三大主要障碍:
- 前期投资:AI 行业已经在集中式 LLM 推理基础设施上投入了数十亿美元,而且不会在一夜之间放弃这项投资。
- 通用基准:AI 社区历来专注于通用基准,这导致人们倾向于使用更大、更通用的模型。
- 缺乏认知:SLM 的市场营销和媒体关注度远不及 LLM,这意味着许多人根本不知道它们的潜力。
但这些并非不可逾越的障碍。随着 SLM 的经济效益日益广为人知,以及支持 SLM 的新工具和基础设施的开发,我们可以预见,人们将逐渐从 LLM 转向更加以 SLM 为中心的方法。
LLM到SLM的转换算法
本文甚至提供了实现这一转变的路线图,即一种将代理应用程序从 LLM 转换为 SLM 的六步算法:
- 安全的使用数据收集:记录所有非 HCI 代理调用,以捕获输入提示、输出响应和其他相关数据。
- 数据整理和过滤:删除所有敏感数据,并准备数据进行微调。
- 任务聚类:识别请求或内部代理操作的重复模式,以定义 SLM 专业化的候选任务。
- SLM 选择:根据 SLM 的功能、性能、许可和部署空间,为每项任务选择最佳的 SLM。
- 专用 SLM 微调:根据特定任务的数据集对所选的 SLM 进行微调。
- 迭代和改进:使用新数据不断重新训练 SLM 和路由器模型,以保持性能并适应不断变化的使用模式。
这是一个切实可行的计划,任何组织都可以使用它来立即开始获得 SLM 的优势。
小结
人工智能革命已经到来,但使用能耗密集型的 LLM 无法实现可持续的扩展。未来将建立在面向 Agentic AI 的 SLM 之上——其设计精巧、高效且灵活。NVIDIA 的研究既是警钟,也是路线图,它挑战了业界对 LLM 的痴迷,同时证明了面向 Agentic AI 的 SLM 能够以极低的成本提供相当的性能。这不仅仅关乎技术——它关乎创建一个更可持续、更公平、更具创新性的人工智能生态系统。即将到来的 Agentic AI 的 SLM 浪潮甚至将推动硬件创新,据报道,NVIDIA 正在开发专门优化的专用处理单元


评论留言