NeurIPS 2025必读的4篇顶级论文(人工智能方向)

NeurIPS 2025必读的4篇顶级论文(人工智能方向)

文章目录

  • 评选标准
  • 获奖论文!
  • 人工蜂巢思维:语言模型(及其他)的开放式同质性(Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond))
  • 面向大型语言模型的门控注意力机制:非线性、稀疏性和无注意力池(Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention Sink Free)
  • 用于自监督强化学习的千层网络:扩展深度可以实现新的目标达成能力(1000 Layer Networks for Self Supervised RL: Scaling Depth Can Enable New Goal Reaching Capabilities)
  • 为什么扩散模型不会记忆:隐式动态正则化在训练中的作用(Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training)
  • 小结

NeurIPS 2025必读的4篇顶级论文(人工智能方向)

NeurIPS 发布了 2025 年度最佳研究论文榜单,这份榜单的意义远不止于列举一些令人印象深刻的研究成果。它为该领域目前关注的问题提供了方向。本文将阐述这些论文的内容,以及它们如何为人工智能做出贡献。如果您感兴趣,我们还提供了论文全文的链接。

评选标准

最佳论文奖评选委员会的任务是从会议的主会场和数据集与基准测试会场中评选出几篇极具影响力的论文。最终,他们选出了 4 篇获奖论文。

获奖论文!

人工蜂巢思维:语言模型(及其他)的开放式同质性(Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond))

自大型语言模型诞生以来,多样性一直是其所缺乏的。人们曾做出诸多努力来区分不同模型的输出,但这些努力都徒劳无功。

不同架构和公司下学习学习模型(LLM)响应的同质性,持续凸显了LLM缺乏创造性。我们正逐渐接近这样一个临界点:模型的响应将变得难以区分。

本文概述了传统基准测试存在的问题。大多数基准测试使用狭窄的、任务型的查询(数学、琐事、代码)。但真实用户提出的问题往往复杂、富有创造性且主观。而这正是模型输出趋于相似的症结所在。本文提出了一个系统性地探索这一领域的数据集。

本文的核心概念有两个:

  • 模型内部重复:单个模型在不同的提示或不同的运行中重复自身。
  • 模型间同质性:不同的模型产生惊人相似的答案。

第二个概念令人担忧:如果Anthropic、Google和Meta等公司都使用不同的模型来重复相同的响应,那么这些多样化的开发又有何意义呢?

解决方案:Infinity-Chat

Infinity-Chat 数据集旨在解决此问题,它包含超过 30,000 条人工标注,每个提示都对应 25 个独立的评分。如此高的密度使得研究人们喜好的分歧成为可能,而不仅仅是研究他们的共识。当作者将这些人工判断与模型输出、奖励模型和自动化 LLM 评估器进行比较时,他们发现了一个清晰的模式:当偏好一致时,系统看起来校准良好;但一旦出现真正的分歧,系统就会出现偏差。这正是 Infinity-Chat 的真正价值所在!

作者:Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi

全文链接:https://openreview.net/forum?id=saDOrrnNTz

面向大型语言模型的门控注意力机制:非线性、稀疏性和无注意力池(Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention Sink Free)

Transformer 模型已经发展多年,人们普遍认为其注意力机制的设计已经成熟。然而事实并非如此!即使经过多年的架构改进,注意力机制仍然存在不稳定性、大量激活值以及众所周知的注意力池问题,即注意力池会使模型专注于无关词元。

这项研究的作者提出了一个简单的问题并进行了深入探索:如果在注意力计算之后添加一个门控机制,仅此而已,会发生什么?他们在训练了数万亿个词元的密集模型和混合专家(MoE)模型上进行了三十多个实验。令人惊讶的是,这种小小的调整在各种设置下都能持续有效地发挥作用。

门控机制之所以如此有效,主要有两个原因:

  • 非线性与稀疏性:针对每个注意力头的 sigmoid 门控在注意力机制之后引入了新的非线性,使模型能够控制哪些信息向前传递。
  • 小改动,大影响:这种修改虽然微小,却能持续提升不同规模模型的性能。

解决方案:输出门控

论文推荐了一种简单的修改方法:针对每个注意力头,对注意力输出应用一个门控。仅此而已。实验表明,这种改进方法能够持续提升不同规模模型的性能。由于机制简单,预计更广泛的社区能够轻松采纳。这项工作也强调了即使是成熟的架构也仍然存在显著的改进空间。

作者:Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin

全文链接:https://openreview.net/forum?id=1b7whO4SfY

在排除了这两篇论文之后,另外两篇论文虽然未必能提供解决方案,但提出了一些值得借鉴的方向。

用于自监督强化学习的千层网络:扩展深度可以实现新的目标达成能力(1000 Layer Networks for Self Supervised RL: Scaling Depth Can Enable New Goal Reaching Capabilities)

强化学习长期以来一直受限于浅层模型,因为训练信号太弱,无法指导非常深的网络。本文挑战了这一假设,并表明深度并非劣势,而是能力的释放。

作者在目标导向的自监督设置下训练了多达一千层的网络。没有奖励,也没有演示。智能体通过探索和预测如何达到指令目标来学习。更深的模型不仅提高了成功率,还能学习浅层模型永远无法发现的行为。

深度在此发挥作用的核心在于两个思想:

  • 对比式自监督:智能体通过比较状态和目标来学习,从而产生稳定且密集的学习信号。
  • 批大小和稳定性:训练非常深的网络只有在批大小随深度增加时才能有效。更大的批大小可以保持对比更新的稳定性,防止网络崩溃。

作者:Kevin Wang, Ishaan Javali, Michał Bortkiewicz, Tomasz Trzcinski, Benjamin Eysenbach

全文链接:https://openreview.net/forum?id=s0JVsx3bx1

为什么扩散模型不会记忆:隐式动态正则化在训练中的作用(Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training)

即使经过高度参数化,扩散模型也很少会记忆其训练数据。本文深入研究了训练过程,解释了其原因。

作者确定了两个训练时间尺度。一个标志着模型开始生成高质量样本的时间点。另一个标志着记忆过程的开始。关键在于,泛化时间与数据集大小无关,而记忆时间则随着数据集的增长而增加。这形成了一个不断扩大的窗口,在这个窗口内,模型能够在不发生过拟合的情况下进行泛化。

记忆过程难以被抑制的核心在于以下两个方面:

  • 训练时间尺度:泛化能力在训练初期就已出现。只有当训练持续到远超泛化能力的阶段时,记忆过程才会出现。
  • 隐式动态正则化:更新动态自然地引导模型关注更广泛的结构,而不是特定的样本。

本文并未引入任何模型或方法。它对人们观察到但无法完全解释的行为给出了清晰的解释。它阐明了扩散模型为何具有如此良好的泛化能力,以及为何它们不会像其他生成模型那样遇到记忆问题。

作者:Tony Bonnaire、Raphaël Urfin、Giulio Biroli、Marc Mezard

全文链接:https://openreview.net/forum?id=BSZqpqgqM0

小结

这四篇论文为未来的研究方向定下了基调。研究重点不再是盲目追求更大的模型,而是转向理解模型的局限性,解决长期存在的瓶颈问题,并揭示模型悄然存在的不足之处。无论是LLM输出的逐渐同质化、注意力机制中被忽视的弱点、强化学习中深度信息的未开发潜力,还是阻止扩散模型记忆的隐藏动态,每篇论文都推动着该领域朝着对这些系统实际行为方式更加务实的理解迈进。这提醒我们,真正的进步来自于清晰的目标,而不仅仅是规模。

评论留言

闪电侠

(工作日 10:00 - 18:30 为您服务)

2026-01-29 23:10:02

您好,无论是售前、售后、意见建议……均可通过联系工单与我们取得联系。

您也可选择聊天工具与我们即时沟通或点击查看:

您的工单我们已经收到,我们将会尽快跟您联系!
取消
选择聊天工具: