不到十年前,與計算機進行有意義的對話還只是科幻小說。但如今,數百萬人每天都在與人工智慧助手聊天,根據文字描述創作令人驚歎的藝術作品,並使用這些人工智慧工具/系統來理解影像並執行高階任務。這一進步得益於眾多專業的人工智慧模型,每種模型都有其獨特的功能和應用。本文將介紹八種正在重塑數字格局,甚至可能塑造我們未來的專業人工智慧模型。
1. LLM:大型語言模型
還記得那些人類與計算機正常對話的科幻電影嗎?大型語言模型營造了一種讓科幻變成現實的氛圍。這些模型能夠理解並生成人類語言,構成了現代人工智慧助手的支柱。
LLM的架構
LLM 本質上是建立在由堆疊的編碼器和/或解碼器模組組成的 Transformer 之上的。此處,典型的實現包括以下內容:
- 多頭注意力層:不同的注意力層使模型能夠同時關注輸入的不同部分,每層計算 Q、K、V 矩陣。
- 前饋神經網路:當這些網路接收注意力的輸出時,它們會實現兩個線性變換,並在其間插入一個非線性啟用函式,通常是 ReLU 或 GELU。
- 殘差連線和層歸一化:透過允許梯度在深度網路中流動並對網路啟用函式進行歸一化,使訓練更加穩定。
- 位置編碼:當 Transformer 並行處理 token 時,它使用正弦或學習到的位置嵌入來注入位置資訊。
- 多階段訓練:在精選資料集上進行微調之前進行預訓練,然後進行對齊,RLHF 是其中一種方法。
LLM的主要特點
- 自然語言理解與生成
- 基於長詞法單元的語境感知
- 基於海量訓練資料的知識表徵
- 零樣本學習(無需任何特定訓練即可執行任務的能力)
- 情境學習,即透過示例適應新格式的能力
- 具有複雜的多步驟推理能力的指令跟蹤能力
- 用於解決問題的思維鏈式推理能力
LLM的典型示例
- GPT-4 (OpenAI):最先進的語言模型之一,具有多模態能力,為 ChatGPT 和數千個應用程式提供支援。
- Claude (Anthropic):以提供深思熟慮、細緻入微的輸出和出色的推理能力而聞名。
- Llama 2 和 3 (Meta):強大的開源模型,將人工智慧推向大眾。
- Gemini (Google):Google 最先進的模型,具有強大的推理能力和多模態能力。
LLM的用例
想象一下,您是一位內容創作者,正遭遇寫作瓶頸。LLM 可以幫您構思創意、建立文章提綱或撰寫內容草稿供您潤色。想象一下,您是一位面臨程式設計問題的開發者;這些模型可以除錯您的程式碼、提出解決方案,甚至用通俗易懂的英語解釋複雜的程式設計概念或術語。
2. LCM:大型概念模型
LLM 專注於語言,而 LCM 則側重於理解思想之間更深層次的概念關係。你可以將它們視為掌握概念而非單純詞語的模型。
LCM的架構
LCM 建立在 Transformer 架構之上,幷包含用於概念理解的專用元件,這些元件通常包括:
- 增強型交叉注意力機制:將文字標記連線到概念表徵,並將詞語連線到底層概念。
- 知識圖譜整合:將結構化知識直接整合到架構中,或透過預訓練目標間接整合。
- 分層編碼層:這些層級捕獲不同抽象層次的概念,從具體例項到抽象類別。
- 多跳推理模組:允許透過多個步驟跟蹤概念關係鏈。
預訓練通常針對概念預測、概念消歧、層次關係建模以及從抽象到具體的對映。此外,許多實現採用專門的注意力機制,為與概念相關的標記分配與與一般上下文相關的標記不同的權重。
LCM的主要特點
- 將抽象概念概念化,超越語言的表層
- 出色的邏輯和因果推理能力
- 提升常識推理和推理能力
- 連線不同領域相關概念
- 層次結構的語義概念
- 概念消歧和實體連結
- 類比和遷移學習
- 從不同資訊源構建知識
LCM的典型示例
- Gato (DeepMind):一個使用簡單模型執行數百項任務的通用智慧體。
- 悟道 2.0(北京人工智慧研究院):一個用於概念理解的超大型多模態人工智慧系統。
- Minerva (Google):專注於數學和科學推理。
- Flamingo (DeepMind):將視覺理解和語言理解與概念框架連線起來。
LCM的用例
對於試圖將來自不同科學論文的見解串聯起來的研究人員來說,LCM 可以揭示原本隱藏的概念聯絡。教育工作者可能會與 LCM 合作設計教學材料,以增強概念學習而不是直接記憶。
3. LAM:大型行動模型
大型行動模型是人工智慧進化的下一階段,這些模型不僅能夠理解或生成內容,還能在數字環境中採取有意義的定向行動。它們充當理解與不行動之間的橋樑。
LAM的架構
LAM 透過多元件設計將語言理解與行動執行相結合:
- 語言理解核心:基於 Transformer 的 LLM,用於處理指令並生成推理步驟。
- 規劃模組:分層規劃系統,將高階目標分解為可操作的步驟,通常使用蒙特卡洛樹搜尋或分層強化學習等技術。
- 工具使用介面:用於外部工具互動的 API 層,包括髮現機制、引數繫結、執行監控和結果解析。
- 記憶系統:短期工作記憶和長期情景記憶都用於在操作之間維護上下文。
計算流程經歷了指令生成和解釋、規劃、工具選擇、執行、觀察和計劃調整的迴圈。訓練通常結合使用監督學習、強化學習和模仿學習等方法。另一個關鍵特徵是“反射機制”,模型會判斷其行為的效果並相應地調整應用策略。
LAM的主要特點
- 根據自然語言形式傳遞的指令採取行動
- 進行多步驟規劃以實現所需的目標
- 無需人工干預即可使用工具和進行 API 互動
- 從演示中學習,而非透過程式設計
- 接收環境反饋並進行自我調整
- 單智慧體決策,將安全放在首位
- 狀態跟蹤和跨序列互動
- 自我糾正和錯誤恢復
LAM的典型示例
- AutoGPT:用於任務執行的實驗性自主 GPT-4。
- Claude Opus 及其工具:透過函式呼叫實現複雜任務的高階自主性。
- LangChain Agents:用於建立面向行動的 AI 系統的框架。
- BabyAGI:自主任務管理和執行的演示。
LAM的用例
想象一下,要求人工智慧“研究當地承包商,彙總他們的評級,並安排與排名前三的承包商就我們的廚房裝修專案進行面談”。LAM 可以執行此類需要理解和行動相結合的多步驟複雜任務。
4. MoE:多專家模型
多專家模型 (MoE) 的設計理念是將專家視為一個整體,而非單一的通才。這些模型包含多個專家神經網路,每個網路都經過訓練,用於研究特定任務或知識領域。
多專家模型 (MoE) 的架構
多專家模型 (MoE) 實現條件計算,使不同的輸入啟用不同的專用子網路:
- 門控網路:輸入被髮送到相應的專家子網路,決定模型中的哪些記憶應該處理每個標記或序列。
- 專家網路:多路專用神經網路子網路(專家),通常是嵌入在變換塊中的前饋網路。
- 稀疏啟用:每個輸入僅啟用一小部分引數。這是透過 Top-k 路由實現的,其中只有得分最高的專家才被允許處理每個標記。
現代實現用 MoE 層取代了 Transformer 中的標準 FFN 層,從而保持注意力機制的稠密性。訓練過程中採用了負載平衡、損失函式和專家 dropout 等技術,以避免病態的路由模式。
MoE的主要特點
- 無需比例計算即可高效擴充套件到海量引數
- 即時將輸入路由到專用網路
- 由於條件計算,引數效率更高
- 更適用於特定領域任務
- 新輸入時實現優雅降級
- 更擅長處理多領域知識
- 訓練時減少災難性遺忘
- 領域平衡的計算資源
MoE的典型示例
- Mixtral AI:一個採用稀疏混合專家架構的開源模型。
- Switch Transformer(谷歌):最早的 MoE 架構之一。
- GLaM(谷歌):谷歌基於 MoE 架構的語言模型,擁有 1.2 萬億個引數。
- Gemini Ultra(谷歌):採用基於 MoE 的方法來提升效能。
MoE的用例
假設一家企業需要一套 AI 系統來處理和管理從客戶服務到技術文件再到創意營銷等所有事務。MoE 模型最擅長這種靈活性,因為它能夠根據正在執行的任務調動不同的“專家”來執行任務。
5. VLM:視覺語言模型
簡而言之,VLM 是視覺與語言之間的紐帶。VLM 能夠理解影像並使用自然語言傳達資訊,本質上賦予 AI 系統觀察和討論所見內容的能力。
VLM的架構
VLM 通常採用雙流架構,分別處理視覺流和語言流:
- 視覺編碼器:通常是一個視覺轉換器 (ViT) 或卷積神經網路 (CNN),它將影像細分為多個塊並進行嵌入。
- 語言編碼器-解碼器:通常是一個基於轉換器的語言模型,以文字作為輸入和輸出。
- 跨模態融合機制:該機制透過以下方式連線視覺流和語言流:
- 早期融合:將視覺特徵投射到語言嵌入空間
- 後期融合:分別處理,然後在更深層次上與注意力機制連線。
- 交錯融合:整個網路應有多個互動點。
- 連線嵌入空間:一種統一的表示形式,其中視覺概念和文字概念將被對映到可比較的向量。
預訓練通常採用多目標訓練方案,包括圖文對比學習、基於視覺語境的掩碼語言建模、視覺問答和影像字幕。這種方法可以培養能夠跨模態靈活推理的模型。
Source: VLMs
VLM的主要功能
- 解析並整合視覺和文字資訊
- 影像理解和細粒度描述能力
- 視覺問答與推理
- 場景解讀,包含物件和關係識別
- 關聯視覺和文字概念的跨模態推理
- 基於視覺輸入生成文字
- 影像內容的空間推理
- 理解視覺隱喻和文化典故
VLM的典型示例
- GPT-4 (OpenAI):GPT-4 的視覺化版本,可以分析和討論影像。
- Claude 3 Sonnet/Haiku (Anthropic):具有強大視覺推理能力的模型。
Gemini Pro Vision (Google):跨文字和影像的高階多模態能力。 - DALLE-3 和 Midjourney:雖然主要以影像生成而聞名,但它們也融入了視覺理解的元素。
VLM的用例
想象一下,一位皮膚科醫生上傳了一張皮膚狀況的影像,AI 會立即透過推理給出可能的診斷。又或者,一位遊客用手機對準某個地標,就能立即瞭解其歷史意義和建築細節。
6. SLM:小型語言模型
人們很少關注越來越大的模型,但我們常常忘記小型語言模型 (SLM) 涵蓋了一個同樣重要的趨勢:人工智慧系統旨在在無法訪問雲的個人裝置上高效執行。
SLM的架構
SLM 開發了專門的技術來最佳化計算效率:
- 高效的注意力機制:標準自注意力機制的替代系統,其規模呈二次方增長,包括:
- 線性注意力機制:透過核近似將複雜度降低到 O(n)。
- 區域性注意力機制:僅在區域性視窗內進行關注,而不是關注整個序列。
- 狀態空間模型:另一種具有線性複雜度的序列建模方法。
- 引數高效的 Transformer:減少引數數量的技術包括:
- 低秩分解:將權重矩陣分解為較小矩陣的乘積。
- 引數共享:跨層重用權重。
- 深度可分離卷積:用更高效的層替換密集層。
- 量化技術:透過訓練後量化、量化感知訓練或混合精度方法,降低權重和啟用函式的數值精度。
- 知識蒸餾:透過基於響應、基於特徵或基於關係的蒸餾模型,遷移大型模型中封裝的知識。
所有這些創新使得 1-10B 引數的模型能夠在消費裝置上執行,其效能接近更大規模的雲託管模型。
Source: SLMs
SLM的主要特點
- 執行完全在應用內進行,無需依賴雲或連線。
- 增強資料隱私,因為資料永遠不會從裝置解除安裝。
- 由於無需網路往返,因此能夠提供快速響應。
- 節能省電。
- 完全離線操作,無需檢查遠端伺服器,尤其適用於高度安全或遠端環境。
- 更便宜,無 API 使用費。
- 可針對特定裝置或應用進行升級。
- 它專注於特定領域或任務的互利共贏。
SLM的典型示例
- Phi-3 Mini(微軟):這是一個擁有 38 億個引數的模型,其效能在同等規模下表現優異。
- Gemma(谷歌):一系列輕量級開放模型,旨在用於裝置端部署。
- Llama 3 8B(Meta):Meta Llama 系列模型的小型化版本,旨在實現高效部署。
- MobileBERT(谷歌):專為移動裝置量身定製,同時保持與 BERT 類似的效能。
SLM的用例
SLM 可以真正幫助那些幾乎沒有網路連線但需要可靠 AI 支援的使用者。注重隱私的客戶可以選擇將不必要的私人資料儲存在本地。那些希望在資源受限的環境中為應用提供強大 AI 功能的開發者也可以充分利用它。
7. MLM:掩碼語言模型
掩碼語言模型運用一種不同尋常的語言理解方式:它們透過找出填空練習的答案來學習,並在訓練過程中隨機“掩蓋”一些單詞,以便模型必須從周圍的上下文中找到缺失的標記。
MLM的架構
MLM 實現了雙向架構,以實現整體的上下文理解:
- 僅編碼器的 Transformer:與嚴格從左到右處理文字的基於解碼器的模型不同,MLM 透過編碼器模組雙向關注整個上下文。
- 掩碼自注意力機制:每個標記可以透過縮放的點積注意力機制關注序列中的所有其他標記,而無需應用任何因果掩碼。
- 標記、位置和句段嵌入:這些嵌入組合形成包含內容和結構資訊的輸入表示。
預訓練目標通常包括:
- 掩碼語言模型 (MLM):將隨機標記替換為掩碼標記,然後模型根據雙向上下文預測原文。
- 下一句預測:確定原文中兩個片段是否連續,儘管像 ROBERTa 這樣的較新變體刪除了這一功能。
該架構生成的是上下文敏感的標記表示,而不是下一個標記預測。基於此,MLM 更傾向於用於理解任務,而非生成任務。
Source: MLMs
MLM的主要特點
- 雙向建模利用更廣泛的語境來增強理解
- 更深入地進行語義分析和分類
- 強大的實體識別和關係提取
- 用更少的樣本進行表徵學習
- 結構化提取領域的領先技術
- 對下游任務具有很強的遷移能力
- 基於語境的詞語表徵,可處理多義性
- 易於針對特定領域進行微調
MLM的典型示例
- BERT(谷歌):首個為 NLP 帶來正規化轉變的雙向編碼器模型
- RoBERTa(Meta):一個經過穩健最佳化的 BERT 模型,可提供更優的訓練方法
- DeBERTa(微軟):一個採用解耦注意力機制的增強型 BERT 模型
- ALBERT(谷歌):一個採用引數高效技術的輕量級 BERT 平臺
MLM的用例
想象一下,一位律師必須從數千份合同中提取一些條款。MLM 非常適合這種有針對性的資訊提取,即使描述差異很大,它也能提供足夠的語境來識別相關的資訊。
8. SAM:任意分割模型
任意分割模型 (SAM) 是計算機視覺領域的一項專業技術,用於以近乎完美的精度從影像中識別和分離物體。
SAM的架構
SAM 的架構由多個元件組成,用於影像分割:
- 影像編碼器:它是一個視覺轉換器主幹,對輸入影像進行編碼以生成密集的特徵表示。SAM 使用 VIT-H 變體,該變體包含 32 個轉換器塊,每個塊有 16 個注意力頭。
- 提示編碼器:處理各種使用者輸入,例如:
- 點提示:帶有背景指示符的空間座標。
- 框提示:兩點座標
- 文字提示:透過文字編碼器處理
- 掩碼提示:編碼為密集空間特徵
- 掩碼解碼器:一個結合影像和提示嵌入的Transformer解碼器,用於生成掩碼預測,由交叉注意力層、自注意力層和一個MLP投影頭組成。
訓練包含三個階段:基於1100萬個掩碼的監督訓練、模型蒸餾和針對特定提示的微調。該訓練可以進行零樣本遷移到未知目標類別和領域,從而廣泛應用於其他分割任務。
Source: SAM
SAM的主要特點
- 零樣本遷移到訓練中從未見過的新物件和類別
- 靈活的提示型別,包括點、框和文字描述
- 在極高解析度下實現畫素級完美分割
- 適用於所有型別影像的領域無關行為
- 多物件分割,感知物件之間的關係
- 透過提供多個正確分割來處理模糊性
- 可以作為元件整合到更大的下游視覺系統中
SAM的典型示例
- Segment Anything (Meta):Meta Research 的原創版本。
- MobileSAM:針對移動裝置最佳化的輕量級版本。
- HQ-SAM:具有更佳邊緣檢測能力的更高質量版本。
- SAM-Med2D:適用於醫療成像的醫學版本。
SAM的用例
照片編輯人員可以使用 SAM 即時精確地將主體與背景分離,而手動操作則需要花費數分鐘甚至數小時才能實現。另一方面,醫生可以使用 SAM 變體來描繪診斷成像中的解剖結構。
您應該選擇哪種模型?
模型的選擇完全取決於您的需求:
模型型別 | 最佳使用場景 | 計算需求 | 部署選項 | 關鍵優勢 | 限制 |
---|---|---|---|---|---|
LLM | 文字生成、客戶服務和內容創作 | 非常高 | 雲、企業伺服器 | 多功能語言能力,通用知識 | 資源密集型,可能出現幻覺 |
LCM | 研究、教育和知識組織 | 高 | 雲、專業硬體 | 概念理解,知識連線 | 技術尚在發展,落地有限 |
LAM | 自動化、工作流執行和自主代理 | 高 | 雲(帶 API 訪問) | 動作執行,工具使用,自動化 | 設定複雜,行為或不可預測 |
MoE | 多領域應用,專業知識 | 中高 | 雲、分散式系統 | 大規模效率,領域專長 | 訓練複雜,路由開銷大 |
VLM | 影像分析、可訪問性和視覺搜尋 | 高 | 雲、高階裝置 | 多模態理解,視覺上下文 | 即時應用需大量計算資源 |
SLM | 移動應用、隱私敏感和離線使用 | 低 | 邊緣裝置、移動端、瀏覽器 | 隱私保護,離線能力,可訪問性 | 能力有限,不及大型模型 |
MLM | 資訊提取、分類、情感分析 | 中等 | 雲、企業部署 | 上下文理解,針對性分析 | 不適合開放式生成 |
SAM | 影像編輯、醫學成像和物體檢測 | 中高 | 雲、GPU 工作站 | 精確視覺分割,互動式使用 | 專注分割,非通用視覺模型 |
小結
專用人工智慧模型代表著改進之間的新突破。也就是說,機器能夠越來越像人類一樣理解、推理、創造和行動。然而,這個領域最令人興奮的或許並非某一特定模型型別的前景,而是當這些模型型別開始融合時將會產生怎樣的景象。這樣的系統將整合LCM的概念理解、LAM的行動能力、MOE的高效選擇能力以及VLM的視覺理解能力,所有這些似乎都透過SLM技術在您的裝置上本地執行。
問題不在於這是否會改變我們的生活,而在於我們將如何利用這些技術來解決最大的挑戰。工具已經存在,可能性無限,未來取決於它們的應用。
評論留言