2025年十大LLM研究論文

2025年十大LLM研究論文

2025年是大型語言模型 (LLM) 領域取得多項突破的一年。這項技術幾乎涵蓋了所有可以想象到的領域,並日益融入到傳統的工作流程中。鑑於當前形勢瞬息萬變,追蹤重大發現並非易事。本文將幫助您瞭解今年最熱門的 LLM 研究論文,幫助您及時掌握人工智慧領域的最新突破。

十大LLM研究論文

這些研究論文來自 Hugging Face,一個提供人工智慧相關內容的線上平臺。選擇論文的指標是 Hugging Face 上的點贊數引數。以下是 2025 年 10 篇最受好評的研究論文:

1. Mutarjim:推進雙向阿拉伯語-英語翻譯

Mutarjim:推進雙向阿拉伯語-英語翻譯

類別:自然語言處理

Mutarjim 是一個緊湊但功能強大的 15 億引數語言模型,用於雙向阿拉伯語-英語翻譯。該模型基於 Kuwain-15B 模型,在效能顯著提升的模型上取得了最佳表現,並引入了 Tarjama-25 基準測試。

目標:主要目標是開發一個高效準確的語言模型,並針對雙向阿拉伯語-英語翻譯進行了最佳化。它解決了當前 LLM 在該領域的侷限性,並引入了一個強大的評估基準。

成果:

  1. Mutarjim(15 億引數)在 Tarjama-25 阿拉伯語-英語翻譯基準測試中取得了最佳表現。
  2. 單向變體,例如 Mutarjim-AR2EN,其效能優於雙向模型。
  3. 持續的預訓練階段顯著提高了翻譯質量。

完整論文:https://arxiv.org/abs/2505.17894

2. Qwen3技術報告

Qwen3技術報告

類別:自然語言處理

本技術報告介紹了 Qwen3,這是一個全新的自然語言處理 (LLM) 系列,其特點是整合了思維和非思維模式,模型規模多樣,多語言能力增強,並在各種基準測試中均表現出色。

目標:本文的主要目標是介紹 Qwen3 LLM 系列,該系列旨在提升效能、效率和多語言能力,特別是透過整合靈活的思維和非思維模式,並最佳化不同任務的資源使用。

成果:

  1. 實證評估表明,Qwen3 在各種基準測試中均取得了最佳結果。
  2. 旗艦模型 Qwen3-235B-A22B 在 AIME’24 上取得了 85.7 分,在 LiveCodeBench v5 上取得了 70.7 分。
  3. Qwen3-235B-A22B-Base 在 15 個評估基準測試中,有 14 個的表現優於 DeepSeek-V3-Base。
  4. 強到弱蒸餾法被證明非常高效,與直接強化學習相比,所需的 GPU 時間約為十分之一。
  5. Qwen3 將多語言支援從 29 種擴充套件到 119 種語言和方言,增強了全球可訪問性和跨語言理解能力。

完整論文:https://arxiv.org/abs/2505.09388

3. 感知、推理、思考與規劃:大型多模態推理模型綜述

感知、推理、思考與規劃:大型多模態推理模型綜述

分類:多模態

本文對大型多模態推理模型 (LMRM) 進行了全面的綜述,概述了多模態推理研究的四個階段發展路線圖。

目標:主要目標是闡明多模態推理的現狀,併為設計能夠在不同環境下進行全面感知、精確理解和深度推理的下一代多模態推理系統提供參考。

結果:本綜述的實驗結果突顯了當前 LMRM 在音影片問答 (AVQA) 任務中的侷限性。此外,GPT-4o 在 BrowseComp 基準測試中的得分為 0.6%,使用瀏覽工具後得分提升至 1.9%,這表明其工具互動規劃能力較弱。

完整論文:https://arxiv.org/abs/2505.04921

4. Absolute Zero:零資料強化自對弈推理

Absolute Zero:零資料強化自對弈推理

分類:強化學習

本文介紹了 Absolute Zero,一種新穎的可驗證獎勵強化學習 (RLVR) 正規化。它使語言模型能夠自主生成和解決推理任務,從而實現自我改進,而無需依賴外部人工整理的資料。

目標:主要目標是開發一個能夠自我進化的推理系統,克服人工整理資料的可擴充套件性限制。透過學習提出能夠最大化學習進度並提升推理能力的任務。

成果:

  1. AZR 在編碼和數學推理任務上取得了整體最佳 (SOTA) 的表現。
  2. 具體來說,AZR-Coder-7B 的整體平均得分為 50.4,在沒有任何整理資料的數學和編碼組合任務上,比之前的最佳模型高出 1.8 個百分點。
  3. 效能提升與模型規模成正比:3B、7B 和 14B 編碼器模型分別實現了 +5.7、+10.2 和 +13.2 個百分點的提升。

完整論文:https://arxiv.org/abs/2505.03335

5. Seed1.5-VL技術報告

Seed1.5-VL技術報告

類別:多模態

本報告介紹了 Seed1.5-VL,這是一個緊湊的視覺語言基礎模型,旨在實現通用的多模態理解和推理。

目標:主要目標是透過解決高質量視覺語言標註的匱乏問題,並高效地訓練具有非對稱架構的大規模多模態模型,來推進通用的多模態理解和推理。

成果:

  1. Seed1.5-VL 在 60 個已評估的公共基準測試中,有 38 個達到了最佳 (SOTA) 效能。
  2. 它在文件理解、基礎和代理任務方面表現出色。
  3. 該模型的 MMMU 得分為 77.9(思維模式),這是衡量多模態推理能力的關鍵指標。

完整論文:https://arxiv.org/abs/2505.07062

6. 將AI效率從以模型為中心轉變為以資料為中心的壓縮

將AI效率從以模型為中心轉變為以資料為中心的壓縮

類別:機器學習

本立場檔案倡導 AI 效率從以模型為中心轉變為以資料為中心的壓縮,重點關注 token 壓縮,以解決大型 AI 模型中長 token 序列日益增長的計算瓶頸。

目標:本文旨在重新定位 AI 效率研究,認為主要的計算瓶頸已從模型大小轉變為長 token 序列自注意力機制的二次方成本,因此有必要關注以資料為中心的 token 壓縮。

結果:

  1. 定量研究表明,token 壓縮可以二次方地降低計算複雜度,並隨著序列長度的減少而線性地降低記憶體使用量。
  2. 實證比較表明,簡單的隨機 token 丟棄方法通常比精心設計的 token 壓縮方法效果更佳。

完整論文:https://arxiv.org/abs/2505.19147

7. 統一多模態預訓練的新興特性

統一多模態預訓練的新興特性

類別:Multi-Modal

BAGEL 是一個用於統一多模態理解和生成的開源基礎模型,在複雜的多模態推理中展現出新興能力。

目標:主要目標是彌合學術模型與專有系統在多模態理解方面的差距。

成果:

  1. BAGEL 在標準基準測試中,在多模態生成和理解方面均顯著優於現有的開源統一模型。
  2. 在影像理解基準測試中,BAGEL 在 MMBench 上獲得了 85.0 分,在 MMVP 上獲得了 69.3 分。
  3. 在文字到影像生成方面,BAGEL 在 GenEval 基準測試中獲得了 0.88 分的總分。
  4. 該模型在複雜的多模態推理中展現出先進的新興能力。
  5. 思想鏈 (CoT) 推理的整合將 BAGEL 的 IntelligentBench 得分從 44.9 分提升至 55.3 分。

完整論文:https://arxiv.org/abs/2505.14683

8. MiniMax-Speech:基於可學習說話人編碼器的內在零樣本文字轉語音

MiniMax-Speech:基於可學習說話人編碼器的內在零樣本文字轉語音

類別:自然語言處理

MiniMax-Speech 是一個基於自迴歸 Transformer 的文字轉語音 (TTS) 模型,它採用可學習說話人編碼器和 Flow-VAE,實現了 32 種語言的高質量、富有表現力的零樣本和單樣本語音克隆。

目標:主要目標是開發一個能夠從未轉錄的參考音訊中克隆高保真、富有表現力的零樣本語音的 TTS 模型。

成果:

  1. MiniMax-Speech 在客觀語音克隆指標上取得了最佳結果。
  2. 該模型以 1153 的 ELO 得分榮登 Artificial Arena 排行榜榜首。
  3. 在多語言評估中,MiniMax-Speech 在具有複雜聲調結構的語言中的表現顯著優於 ElevenLabs Multilingual v2。
  4. Flow-VAE 整合改進了 TTS 合成,其測試集零樣本 WER 為 0.748。

完整論文:https://arxiv.org/abs/2505.07916

9. 超越“Aha!”:邁向系統性元能力對齊

超越“Aha!”:邁向系統性元能力對齊

分類:自然語言處理

本文介紹了一種將大型推理模型 (LRM) 與基本元能力對齊的系統方法。該方法使用可自驗證的合成任務和三階段強化學習流程來實現。

目標:透過將 LRM 中出現的“aha  時刻”與領域通用的推理元能力(演繹、歸納和溯因)明確對齊,克服 LRM 中突發“頓悟時刻”的不可靠性和不可預測性。

成果:

  1. 元能力對齊(階段 A + B)遷移到未見基準測試,合併後的 32B 模型在數學、編碼和科學基準測試中,與指令調整後的基線(44.6%)相比,總體平均準確率(48.1%)提高了 3.5%。
  2. 基於元能力對齊檢查點(階段 C)的特定領域強化學習進一步提升了效能; 32B 領域-強化學習-元模型的總體平均水平達到了 48.8%,比 32B 教學基線(44.6%)絕對提升了 4.2%,比直接強化學習教學模型(47.4%)提升了 1.4%。
  3. 元能力對齊模型展現出更高的目標認知行為頻率。

全文:https://arxiv.org/abs/2505.10554

10. 語言模型的模型鏈學習

語言模型的模型鏈學習

分類:自然語言處理

本文介紹了一種新的語言模型 (LLM) 學習正規化“模型鏈”(CoM),它將因果關係以鏈的形式整合到隱藏狀態中,從而提升了擴充套件效率和推理靈活性。

目標:主要目標是透過開發一個框架來解決現有 LLM 擴充套件策略的侷限性,這些策略通常需要從頭開始訓練並啟用固定規模的引數,該框架允許漸進式模型擴充套件、彈性推理以及更高效的 LLM 訓練和調優。

成果:

  1. CoLM 系列實現了與標準 Transformer 模型相當的效能。
  2. 鏈擴充套件展示了效能提升(例如,擴充套件後的 TinyLLaMA-v1.1 平均準確率提高了 0.92%)。
  3. CoLM-Air 顯著加速了預填充速度(例如,CoLM-Air 的預填充速度提高了近 1.6 倍到 3.0 倍,與 MInference 結合使用時,速度提升高達 27 倍)。
  4. Chain Tuning 透過僅微調部分引數來提升 GLUE 效能。

完整論文:https://arxiv.org/abs/2505.11820

小結

從所有這些 LLM 研究論文中可以得出的結論是,語言模型如今正被廣泛應用於各種用途。它們的用例在很大程度上已經從文字生成(它最初的設計目標)轉向了其他領域。這些研究基於圍繞 LLM 開發的大量框架和協議。值得注意的是,大多數研究都集中在人工智慧、機器學習和類似學科領域,因此,及時瞭解這些領域的動態就顯得尤為重要。

現在,您可以利用最熱門的 LLM 研究論文,整合其中的研究成果,從而創造最先進的成果。雖然其中大多數論文只是對現有技術進行了改進,但所取得的成果卻帶來了根本性的變革。這為蓬勃發展的語言模型領域的進一步研究和發展帶來了光明的前景。

評論留言