
NeurIPS 釋出了 2025 年度最佳研究論文榜單,這份榜單的意義遠不止於列舉一些令人印象深刻的研究成果。它為該領域目前關注的問題提供了方向。本文將闡述這些論文的內容,以及它們如何為人工智慧做出貢獻。如果您感興趣,我們還提供了論文全文的連結。
評選標準
最佳論文獎評選委員會的任務是從會議的主會場和資料集與基準測試會場中評選出幾篇極具影響力的論文。最終,他們選出了 4 篇獲獎論文。
獲獎論文!
人工蜂巢思維:語言模型(及其他)的開放式同質性(Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond))
自大型語言模型誕生以來,多樣性一直是其所缺乏的。人們曾做出諸多努力來區分不同模型的輸出,但這些努力都徒勞無功。
不同架構和公司下學習學習模型(LLM)響應的同質性,持續凸顯了LLM缺乏創造性。我們正逐漸接近這樣一個臨界點:模型的響應將變得難以區分。
本文概述了傳統基準測試存在的問題。大多數基準測試使用狹窄的、任務型的查詢(數學、瑣事、程式碼)。但真實使用者提出的問題往往復雜、富有創造性且主觀。而這正是模型輸出趨於相似的癥結所在。本文提出了一個系統性地探索這一領域的資料集。
本文的核心概念有兩個:
- 模型內部重複:單個模型在不同的提示或不同的執行中重複自身。
- 模型間同質性:不同的模型產生驚人相似的答案。
第二個概念令人擔憂:如果Anthropic、Google和Meta等公司都使用不同的模型來重複相同的響應,那麼這些多樣化的開發又有何意義呢?
解決方案:Infinity-Chat
Infinity-Chat 資料集旨在解決此問題,它包含超過 30,000 條人工標註,每個提示都對應 25 個獨立的評分。如此高的密度使得研究人們喜好的分歧成為可能,而不僅僅是研究他們的共識。當作者將這些人工判斷與模型輸出、獎勵模型和自動化 LLM 評估器進行比較時,他們發現了一個清晰的模式:當偏好一致時,系統看起來校準良好;但一旦出現真正的分歧,系統就會出現偏差。這正是 Infinity-Chat 的真正價值所在!
作者:Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi
全文連結:https://openreview.net/forum?id=saDOrrnNTz
面向大型語言模型的門控注意力機制:非線性、稀疏性和無注意力池(Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention Sink Free)
Transformer 模型已經發展多年,人們普遍認為其注意力機制的設計已經成熟。然而事實並非如此!即使經過多年的架構改進,注意力機制仍然存在不穩定性、大量啟用值以及眾所周知的注意力池問題,即注意力池會使模型專注於無關詞元。
這項研究的作者提出了一個簡單的問題並進行了深入探索:如果在注意力計算之後新增一個門控機制,僅此而已,會發生什麼?他們在訓練了數萬億個詞元的密集模型和混合專家(MoE)模型上進行了三十多個實驗。令人驚訝的是,這種小小的調整在各種設定下都能持續有效地發揮作用。
門控機制之所以如此有效,主要有兩個原因:
- 非線性與稀疏性:針對每個注意力頭的 sigmoid 門控在注意力機制之後引入了新的非線性,使模型能夠控制哪些資訊向前傳遞。
- 小改動,大影響:這種修改雖然微小,卻能持續提升不同規模模型的效能。
解決方案:輸出門控
論文推薦了一種簡單的修改方法:針對每個注意力頭,對注意力輸出應用一個門控。僅此而已。實驗表明,這種改進方法能夠持續提升不同規模模型的效能。由於機制簡單,預計更廣泛的社羣能夠輕鬆採納。這項工作也強調了即使是成熟的架構也仍然存在顯著的改進空間。
作者:Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin
全文連結:https://openreview.net/forum?id=1b7whO4SfY
在排除了這兩篇論文之後,另外兩篇論文雖然未必能提供解決方案,但提出了一些值得借鑑的方向。
用於自監督強化學習的千層網路:擴充套件深度可以實現新的目標達成能力(1000 Layer Networks for Self Supervised RL: Scaling Depth Can Enable New Goal Reaching Capabilities)
強化學習長期以來一直受限於淺層模型,因為訓練訊號太弱,無法指導非常深的網路。本文挑戰了這一假設,並表明深度並非劣勢,而是能力的釋放。
作者在目標導向的自監督設定下訓練了多達一千層的網路。沒有獎勵,也沒有演示。智慧體透過探索和預測如何達到指令目標來學習。更深的模型不僅提高了成功率,還能學習淺層模型永遠無法發現的行為。
深度在此發揮作用的核心在於兩個思想:
- 對比式自監督:智慧體透過比較狀態和目標來學習,從而產生穩定且密集的學習訊號。
- 批大小和穩定性:訓練非常深的網路只有在批大小隨深度增加時才能有效。更大的批大小可以保持對比更新的穩定性,防止網路崩潰。
作者:Kevin Wang, Ishaan Javali, Michał Bortkiewicz, Tomasz Trzcinski, Benjamin Eysenbach
全文連結:https://openreview.net/forum?id=s0JVsx3bx1
為什麼擴散模型不會記憶:隱式動態正則化在訓練中的作用(Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training)
即使經過高度引數化,擴散模型也很少會記憶其訓練資料。本文深入研究了訓練過程,解釋了其原因。
作者確定了兩個訓練時間尺度。一個標誌著模型開始生成高質量樣本的時間點。另一個標誌著記憶過程的開始。關鍵在於,泛化時間與資料集大小無關,而記憶時間則隨著資料集的增長而增加。這形成了一個不斷擴大的視窗,在這個視窗內,模型能夠在不發生過擬合的情況下進行泛化。
記憶過程難以被抑制的核心在於以下兩個方面:
- 訓練時間尺度:泛化能力在訓練初期就已出現。只有當訓練持續到遠超泛化能力的階段時,記憶過程才會出現。
- 隱式動態正則化:更新動態自然地引導模型關注更廣泛的結構,而不是特定的樣本。
本文並未引入任何模型或方法。它對人們觀察到但無法完全解釋的行為給出了清晰的解釋。它闡明瞭擴散模型為何具有如此良好的泛化能力,以及為何它們不會像其他生成模型那樣遇到記憶問題。
作者:Tony Bonnaire、Raphaël Urfin、Giulio Biroli、Marc Mezard
全文連結:https://openreview.net/forum?id=BSZqpqgqM0
小結
這四篇論文為未來的研究方向定下了基調。研究重點不再是盲目追求更大的模型,而是轉向理解模型的侷限性,解決長期存在的瓶頸問題,並揭示模型悄然存在的不足之處。無論是LLM輸出的逐漸同質化、注意力機制中被忽視的弱點、強化學習中深度資訊的未開發潛力,還是阻止擴散模型記憶的隱藏動態,每篇論文都推動著該領域朝著對這些系統實際行為方式更加務實的理解邁進。這提醒我們,真正的進步來自於清晰的目標,而不僅僅是規模。

評論留言