
代理 AI 行業正在蓬勃發展,其價值超過 52 億美元,預計到 2034 年將達到 2000 億美元。我們正在進入一個 AI 將像網際網路一樣普及的時代,但其基礎存在一個關鍵缺陷。當今的 AI 革命依賴於龐大且耗電的 LLM——而用於代理 AI 的 SLM 具有獨特的優勢可以解決這個問題。雖然 LLM 接近人類的能力令人印象深刻,但對於專門的任務來說,它們往往是大材小用,比如用大錘砸核桃。結果如何?成本高昂、能源浪費和創新受阻——而這些挑戰正是用於代理 AI 的 SLM 直接解決的。
但還有更好的方法。NVIDIA 的研究論文“小型語言模型是代理 AI 的未來”揭示了 SLM(小型語言模型)如何提供更智慧、更可持續的發展道路。讓我們深入探討為什麼通常越小越好,以及 SLM 如何重塑 AI 的未來。
為何選擇SLM?
未來並非取決於暴力破解式的規模,而是取決於規模合適的智慧。
—— NVIDIA 研究論文
在理解為什麼 SLM 是正確選擇之前,我們先來了解一下 SLM 的真正含義。該論文將其定義為一種語言模型,它能夠安裝在常見的消費電子裝置上,並以足夠低的延遲進行推理,從而能夠處理單個使用者的代理請求。截至 2025 年,這通常包括引數數量低於 100 億的模型。

Source: NVIDIA Research Paper
論文作者認為,SLM 不僅是 LLM 的可行替代方案,而且在很多情況下,它們都是更優的選擇。他們基於以下三個關鍵支柱,提出了令人信服的論證:
- SLM 足夠強大
- SLM 更經濟實惠
- SLM 更靈活
讓我們逐一分析一下這些論點。
SLM的驚人“威力”
人們很容易認為 SLM 不如大型模型效能強大。畢竟,“越大越好”的口號多年來一直是人工智慧領域的驅動力。但最近的進展表明,情況已不再如此。
精心設計的 SLM 現在能夠在各種任務上達到甚至超越更大型模型的效能。論文重點介紹了幾個例子,包括:
- 微軟的 Phi 系列:Phi-2 模型僅包含 27 億個引數,其常識推理和程式碼生成得分卻與包含 300 億個引數的模型相當,而執行速度卻提高了約 15 倍。小型模型 Phi-3(包含 70 億個引數)的表現更為出色,其語言理解、常識推理和程式碼生成得分可與高達其大小 10 倍的模型相媲美。
- NVIDIA 的 Nemotron-H 系列:這些混合 Mamba-Transformer 模型的引數規模從 20 億到 90 億不等,其指令跟蹤和程式碼生成準確率可與包含 300 億個引數的密集 LLM 相媲美,但推理成本卻僅為其一小部分。
- Huggingface 的 SmolLM2 系列:這一系列緊湊型語言模型的引數規模從 1.25 億到 17 億不等,其效能可與同一代包含 140 億個引數的模型,甚至兩年前的包含 700 億個引數的模型相媲美。
以上只是幾個例子,但資訊很明確:說到績效,規模並非一切。藉助現代訓練技術、激勵和代理增強技術,SLM 可以發揮巨大作用。
小型化帶來的“經濟”案例
這正是 SLM 真正引人注目之處。在這個精打細算的世界裡,SLM 的經濟優勢不容忽視。
- 推理效率:在延遲、能耗和 FLOP 方面,服務一個包含 70 億個引數的 SLM 比服務一個包含 700 億到 1750 億個引數的 LLM 便宜 10 到 30 倍。這意味著您可以獲得大規模的即時代理響應,而無需投入巨資。
- 微調敏捷性:需要新增新行為或修復錯誤?使用 SLM,您可以在數小時內完成,而不是數週。這允許快速迭代和調整,這在當今快節奏的世界中至關重要。
- 邊緣部署:SLM 可以在消費級 GPU 上執行,這意味著您可以進行即時、離線的代理推理,並具有更低的延遲和更強的資料控制能力。這為裝置端 AI 開闢了一個全新的無限可能。
- 模組化系統設計:無需依賴單一、龐大的邏輯推理模型 (LLM),您可以組合多個規模較小、功能專業的邏輯推理模型 (SLM) 來處理不同的任務。這種“類似樂高”的方法成本更低、除錯速度更快、部署更便捷,並且更符合現實世界中智慧體的操作多樣性。
綜合考慮所有這些因素,SLM 的經濟效益是毋庸置疑的。它們比大型系統更便宜、更快速、更高效,對於任何想要構建經濟高效、模組化且可持續的 AI 智慧體的企業來說,SLM 都是明智之選。
為什麼“一刀切”並非萬能的
世界並非千篇一律,我們要求 AI 智慧體執行的任務也並非千篇一律。這正是 SLM 靈活性的真正亮點所在。
由於 SLM 規模更小、訓練成本更低,您可以為不同的智慧體例程建立多個專用的專家模型。這使您能夠:
- 適應不斷變化的使用者需求:需要支援新的行為或輸出格式?沒問題。只需對新的語言模型 (SLM) 進行微調即可。
- 遵守不斷變化的法規:藉助 SLM,您可以輕鬆適應不同市場的新法規,而無需重新訓練龐大的單片模型。
- 民主化 AI:透過降低進入門檻,SLM 可以幫助實現 AI 的民主化,讓更多人和組織參與語言模型的開發。這將帶來更加多樣化和創新的 AI 生態系統。
未來之路:克服採用障礙
如果 SLM 的前景如此強勁,為什麼我們仍然如此痴迷於 LLM?本文指出了採用的三大主要障礙:
- 前期投資:AI 行業已經在集中式 LLM 推理基礎設施上投入了數十億美元,而且不會在一夜之間放棄這項投資。
- 通用基準:AI 社羣歷來專注於通用基準,這導致人們傾向於使用更大、更通用的模型。
- 缺乏認知:SLM 的市場營銷和媒體關注度遠不及 LLM,這意味著許多人根本不知道它們的潛力。
但這些並非不可逾越的障礙。隨著 SLM 的經濟效益日益廣為人知,以及支援 SLM 的新工具和基礎設施的開發,我們可以預見,人們將逐漸從 LLM 轉向更加以 SLM 為中心的方法。
LLM到SLM的轉換演算法
本文甚至提供了實現這一轉變的路線圖,即一種將代理應用程式從 LLM 轉換為 SLM 的六步演算法:
- 安全的使用資料收集:記錄所有非 HCI 代理呼叫,以捕獲輸入提示、輸出響應和其他相關資料。
- 資料整理和過濾:刪除所有敏感資料,並準備資料進行微調。
- 任務聚類:識別請求或內部代理操作的重複模式,以定義 SLM 專業化的候選任務。
- SLM 選擇:根據 SLM 的功能、效能、許可和部署空間,為每項任務選擇最佳的 SLM。
- 專用 SLM 微調:根據特定任務的資料集對所選的 SLM 進行微調。
- 迭代和改進:使用新資料不斷重新訓練 SLM 和路由器模型,以保持效能並適應不斷變化的使用模式。
這是一個切實可行的計劃,任何組織都可以使用它來立即開始獲得 SLM 的優勢。
小結
人工智慧革命已經到來,但使用能耗密集型的 LLM 無法實現可持續的擴充套件。未來將建立在面向 Agentic AI 的 SLM 之上——其設計精巧、高效且靈活。NVIDIA 的研究既是警鐘,也是路線圖,它挑戰了業界對 LLM 的痴迷,同時證明了面向 Agentic AI 的 SLM 能夠以極低的成本提供相當的效能。這不僅僅關乎技術——它關乎建立一個更可持續、更公平、更具創新性的人工智慧生態系統。即將到來的 Agentic AI 的 SLM 浪潮甚至將推動硬體創新,據報道,NVIDIA 正在開發專門最佳化的專用處理單元

評論留言