2025年14个热门LLM基准测试

热门LLM基准测试

大型语言模型(LLM)已被证明是一种强大的工具,在解释和生成模仿人类语言的文本方面表现出色。然而,这些模型的广泛使用带来了准确评估其性能的复杂任务。在此,LLM 基准占据了中心位置,它提供了系统的评估,以衡量模型在语言理解和高级推理等任务中的技能。本文探讨了它们的关键作用,重点介绍了著名的示例,并研究了它们的局限性,全面介绍了它们对语言技术的影响。

基准测试对于评估大型语言模型(LLM)至关重要,是衡量和比较性能的标准。它们为评估从基本语言理解到高级推理和编程等技能提供了一致的方法。

什么是LLM基准测试?

LLM 基准测试是结构化测试,旨在评估语言模型在特定任务中的表现。它们有助于回答一些关键问题,例如

  • 该 LLM 能否有效处理编码任务?
  • 它在对话中提供相关答案的能力如何?
  • 它是否能够解决复杂的推理问题?

LLM基准测试的主要特点

  • 标准化测试:每个基准都由一组已知正确答案的任务组成,以便进行一致的评估。
  • 评估领域多样化:基准可侧重于各种技能,包括
    • 语言理解能力
    • 数学问题解决能力
    • 编码能力
    • 对话质量
    • 安全和道德考虑

制定LLM基准测试的必要性何在?

评估的标准化和透明度

  • 比较一致性:基准有助于在 LLM 之间进行直接比较,确保评估的透明度和可重复性。
  • 绩效快照:基准可快速评估新的 LLM 相对于已有模式的能力。

进度跟踪和改进

  • 监测进展:基准有助于观察模型性能随时间推移的改进情况,帮助研究人员完善模型。
  • 发现局限:这些工具可以指出模型的不足之处,从而指导未来的研发工作。

模型选择

  • 知情选择:对于从业人员来说,基准是为特定任务选择模型时的重要参考,可确保为聊天机器人或客户支持系统等应用做出明智的决策。

LLM基准测试的工作原理

以下是分步流程:

  • 数据集输入和测试
    • 基准测试提供各种任务供 LLM 完成,如回答问题或生成代码。
    • 每个基准都包含一个文本输入数据集和相应的“地面实况”答案,以供评估。
  • 性能评估和评分:完成任务后,根据任务类型,使用准确率或 BLEU 分数等标准化指标对模型的回答进行评估。
  • LLM 排名和排行榜:根据得分对模型进行排名,排名通常显示在汇总多个基准结果的排行榜上。

推理基准测试

1. ARC:抽象与推理挑战

抽象与推理语料库(ARC)从瑞文渐进矩阵(Raven’s Progressive Matrices)中汲取灵感,对机器智能进行基准测试。它挑战人工智能系统根据几个例子识别序列中的下一幅图像,促进反映人类认知能力的少量学习。通过强调泛化和利用 “先验”(关于世界的内在知识),ARC 旨在推动人工智能向人类推理的方向发展。该数据集采用结构化课程,系统地指导系统完成日益复杂的任务,同时通过预测准确性来衡量性能。尽管取得了进步,但人工智能仍难以达到人类水平,这凸显了人工智能研究不断进步的必要性。

ARC:抽象与推理挑战

Source: Link

抽象与推理语料库包括人类和人工智能系统都能解决的各种任务。受瑞文渐进矩阵(Raven’s Progressive Matrices)的启发,任务形式要求参与者识别序列中的下一幅图像,以测试他们的认知能力。

2. 大规模多学科多模态理解(MMMU)

大规模多学科多模态理解和推理(MMMU)基准评估了大学水平知识和推理任务中的多模态模型。它包括来自六个学科的考试、测验和教科书中的 11.5K 个问题: 艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程。

这些问题横跨 30 个学科和 183 个子领域,包含 30 种不同的图像类型,如图表、示意图、地图和化学结构。MMMU 侧重于利用特定领域的知识进行高级感知和推理,挑战模型执行专家级任务,旨在测量大型多模态模型(LMM)的感知、知识和推理技能。对包括 GPT-4V 在内的现有模型的评估显示,即使高级模型也只能达到 56% 左右的准确率,但仍有很大的改进空间。为了加强评估,我们引入了一个更强大的基准版本–MMMU-Pro。

大规模多学科多模态理解(MMMU)

Source: Link

各学科的 MMMU 示例。这些问题和图片需要专家级的知识才能理解和推理。

3. GPQA:高级推理的挑战性基准测试

GPQA 是一个包含 448 道生物、物理和化学选择题的数据集,旨在挑战专家和高级人工智能。拥有博士学位的领域专家创建并验证了这些问题,以确保问题的高质量和高难度。尽管互联网访问不受限制,专家们的准确率达到了 65%(回溯发现的错误为 74%),而拥有其他领域博士学位的非专家们的准确率仅为 34%,这证明这些问题 “不受谷歌影响”。GPT-4 等领先的人工智能模型的准确率仅为 39%。GPQA 支持对超越人类能力的人工智能进行可扩展监督的研究,帮助人类提取真实的信息,即使是他们专业知识以外的主题。

GPQA:高级推理的挑战性基准测试

Source: Link

起初,我们会精心设计一个问题,然后由同一领域的专家提供答案和反馈,其中可能包括对问题的修改建议。随后,问题撰写人根据专家的反馈意见修改问题。修改后的问题会被发送给同一领域的另一位专家和其他领域的三位非专家验证者。如果专家验证者最初回答正确,或者在看到正确答案后对其最初的错误做出了明确解释,或者对问题撰写者的解释表现出了透彻的理解,我们就认为他们同意(*)。

4. 测量大规模多任务语言理解能力(MMLU)

大规模多任务语言理解(MMLU)基准测试,旨在衡量文本模型在预培训期间获得的知识。MMLU 针对 57 种不同任务对模型进行评估,包括初等数学、美国历史、计算机科学、法律等。它采用多项选择题的格式,使评估简单明了。

与以往的基准测试相比,该基准测试旨在对语言理解能力进行更全面、更具挑战性的测试,要求将知识与推理相结合。论文介绍了几个模型的结果,表明即使是大型预训练模型在 MMLU 上也很吃力,这表明语言理解能力还有很大的提升空间。此外,论文还探讨了规模和微调对 MMLU 性能的影响。

测量大规模多任务语言理解能力(MMLU)

Source: Link

这项任务要求理解详细和不协调的情景,运用适当的法律先例,并选择正确的解释。绿色复选标记为基本事实。

编码基准测试

5. HumanEval:评估根据语言模型生成的代码

HumanEval 是一个旨在评估由语言模型生成的代码的功能正确性的基准测试。它由 164 个编程问题组成,包含函数签名、docstring 和几个单元测试。这些问题评估语言理解、推理、算法和简单数学方面的技能。与以往依赖语法相似性的基准不同,HumanEval 评估生成的代码是否真正通过了所提供的单元测试,从而衡量功能的正确性。该基准突显了当前语言模型与人类级代码生成之间的差距,揭示了即使是大型模型也很难始终如一地生成正确的代码。它是评估代码生成语言模型能力的一项具有挑战性的实用测试。

HumanEval

Source: Link

以下是 HumanEval 数据集中的三个示例问题,并附有 Codex-12B 单个样本通过单元测试的概率: 0.9、0.17 和 0.005。提交给模型的提示显示在白色背景上,而模型生成的成功完成则突出显示在黄色背景上。虽然这并不能保证问题的新颖性,但所有问题都是手工精心制作的,而不是从现有资源中以编程方式复制而来,从而确保了数据集的独特性和挑战性。

6. SWE-Bench

SWE-Bench 是一项基准测试,旨在评估大型语言模型(LLM)解决 GitHub 上实际软件问题的能力。它由 2294 个软件工程问题组成,这些问题来自 GitHub 上的真实问题和 12 个流行 Python 仓库中相应的拉取请求。任务包括向语言模型提供代码库和问题描述,要求它生成一个能解决问题的补丁。然后根据版本库的测试框架对模型提出的解决方案进行评估。SWE-bench 专注于评估整个 “代理 ”系统,其中包括人工智能模型和负责生成提示、解析输出和管理交互循环的周边软件支架2。经过人工验证的子集名为 SWE-bench Verified,由 500 个样本组成,可确保任务的可解决性,并能更清晰地衡量编码代理的性能。

SWE-Bench

Source: Link

SWE-bench 通过连接 GitHub 问题和解决相关测试的合并拉取请求解决方案,从现实世界的 Python 代码库中获取任务实例。有了问题文本和代码库快照,模型就会生成补丁,并根据实际测试进行评估。

7. SWE-Lancer

SWE-Lancer 是一个基准测试,用于评估前沿语言模型(LLM)在完成来自 Upwork 的真实世界自由软件工程任务方面的能力,总价值达 100 万美元。它包括 1,400 多项任务,从价值 50 美元的简单错误修复到价值高达 32,000 美元的复杂功能实现,不一而足。该基准评估了两类任务: 个人贡献者(IC)任务,即模型生成代码补丁,并由专业工程师进行端到端测试验证;SWE 管理员任务,即模型从多个选项中选择最佳实施方案。研究结果表明,即使是先进的模型也很难解决大多数任务,这凸显了当前人工智能能力与现实世界软件工程需求之间的差距。通过将模型性能与货币价值挂钩,SWE-Lancer 旨在促进研究人工智能在软件开发中的经济意义。

SWE-Lancer

Source: Link

IC SWE 任务的评估过程包括对模型性能进行全面测试的严格评估。模型会收到一组任务,它必须生成满足所有适用测试的解决方案,才能获得报酬。这一评估流程可确保模型的输出不仅正确,而且全面,符合真实世界软件工程任务的高标准要求。

8. 实时代码工作台

LiveCodeBench 是一种新型基准测试,旨在通过解决现有基准测试的局限性,对代码相关任务中的大型语言模型(LLM)进行全面、无污染的评估。它使用的问题来自 LeetCode、AtCoder 和 CodeForces 等平台上的每周编码竞赛,并标注了发布日期以防止污染,除代码生成外,还在自我修复、代码执行和测试输出预测方面对 LLM 进行评估。LiveCodeBench 在 2023 年 5 月至 2024 年 5 月期间发布了 500 多个编码问题,具有高质量的问题和测试、均衡的问题难度,并揭示了某些模型与 HumanEval 的潜在过度拟合,突出了不同模型在不同编码任务中的不同优势。

实时代码工作台

Source: Link

LiveCodeBench 通过呈现各种编码场景,提供了一种全面的评估方法。编码是一项复杂的任务,我们建议通过一系列评估设置来评估大型语言模型(LLM),这些设置可以捕捉到一系列与编码相关的技能。除了典型的代码生成设置外,我们还引入了另外三个场景:自我修复、代码执行和新颖的测试输出预测任务。

9. 代码力量

CodeForces 是一项新颖的基准测试,旨在通过与 CodeForces 平台直接对接,评估大型语言模型(LLM)的竞赛级代码生成能力。这种方法通过访问隐藏测试用例、支持特殊裁判和一致的执行环境来确保准确的评估。CodeForces 引入了标准化的 Elo 评级系统,该系统与 CodeForces 自身的评级系统保持一致,但减少了差异,从而允许 LLM 与人类竞争对手进行直接比较。对 33 个 LLM 的评估显示了显著的性能差异,OpenAI 的 o1-mini 获得了 1578 的最高 Elo 评级,在人类参赛者中排名前 90%。该基准揭示了先进模型所取得的进步,以及当前大多数 LLMs 在编程竞技能力方面仍有相当大的提升空间。CodeForces 基准及其 Elo 计算逻辑是公开的。

代码力量

Source: Link

CodeForces 提出了广泛的编程挑战,每个问题的结构都经过精心设计,包括基本组件。这些组成部分通常包括 1)描述性标题;2)解决方案的时间限制;3)程序的内存限制;4)详细的问题描述;5)输入格式;6)预期输出格式;7)指导程序员的测试用例;8)提供额外背景或提示的可选注释。其中一个问题名为 “CodeForces 问题 E”,可通过以下网址访问:https://codeforces.com/contest/2034/problem/E 。这个问题经过精心设计,旨在测试程序员在竞争激烈的编码环境中的技能,挑战他们在给定的时间和内存限制内创建高效和有效的解决方案。

工具使用(代理)基准测试

10. TAU-Bench

τ-Bench积极评估语言代理与(模拟)人类用户和编程应用程序接口互动的能力,同时遵守特定领域的政策。现有的基准测试通常以简化的指令遵循设置为特色,与之不同的是,τ-bench 模拟了用户(由语言模型模拟)与配备了特定领域 API 工具和策略指南的语言代理之间的动态对话。该基准采用了一个模块化框架,其中包括真实的数据库和应用程序接口、特定领域的政策文档以及针对不同用户场景的指令和相应的地面实况注释。τ-bench 的一个主要特点是其评估流程,该流程将对话结束时的数据库状态与注释的目标状态进行比较,从而对代理的决策进行客观衡量。

该基准还引入了一个新指标–pass^k,用于评估代理行为在多次试验中的可靠性,突出了在真实世界应用中,代理需要能够始终如一地行动并可靠地遵守规则。初步实验表明,即使是最先进的函数调用代理,在复杂推理、遵守策略和处理复合请求方面也会遇到困难。

TAU-Bench

Source: Link

τ-bench 是一种创新基准测试,在该基准测试中,代理与数据库 API 工具和 LM 模拟用户进行交互,以完成任务。它评估了代理通过多种交互方式收集并向用户传达相关信息的能力,同时还测试了代理实时解决复杂问题的能力,以确保遵守特定领域政策文件中列出的准则。在 τ-airline 任务中,代理必须根据领域政策拒绝用户更改基本经济舱航班的请求,然后提出替代解决方案–取消和重新预订。这项任务要求代理在涉及数据库、规则和用户意图的复杂环境中进行零点推理。

语言理解和问题解答基准测试

11. 超级语言学习

SuperGLUE 通过高级基准测试评估自然语言理解(NLU)模型的能力,提供比其前身 GLUE 要求更高的评估。在保留 GLUE 两项最具挑战性任务的同时,SuperGLUE 引入了更复杂的新任务,需要更深入的推理、常识性知识和上下文理解。它超越了 GLUE 的句子和句对分类,增加了问题解答和核心参照解析等任务。SuperGLUE 的设计者创造了受过大学教育的英语使用者能够完成的任务,但这些任务仍然超出了当前最先进系统的能力。该基准为比较提供了全面的人类基准,并为模型评估提供了工具包。SuperGLUE 旨在衡量和推动通用语言理解技术的发展。

超级语言学习

Source: Link

SuperGLUE 任务开发集提供了多种多样的示例,每种示例都以独特的格式呈现。这些示例通常包括粗体文字,以表明每个任务的特定格式。模型输入整合了斜体文本,以提供重要的背景或信息。它特别标注了输入内容中的下划线文本,通常是为了突出特定的重点或要求。最后,它使用单倍行距字体来表示预期输出,展示预期响应或解决方案。

12. HelloSwag

HellaSwag 是用于评估常识自然语言推理(NLI)的基准数据集。它挑战机器根据给定语境完成句子。该数据集由 Zellers 等人开发,包含 70,000 个问题。人类的准确率超过 95%,而顶级模型的准确率低于 50%。该数据集使用对抗过滤(Adversarial Filtering,AF)来生成具有误导性但看似合理的错误答案,从而增加了模型找到正确答案的难度。这凸显了 BERT 等深度学习模型在常识推理方面的局限性。HellaSwag 强调了不断发展基准的必要性,这些基准能让人工智能系统在理解类似人类的场景时不断面临挑战。

HelloSwag

Source: Link

BERT 等模型在完成 HellaSwag 中的句子时经常会遇到困难,即使这些句子与训练数据分布相同。不正确的结尾虽然与上下文相关,但却不符合人类的正确性和合理性标准。例如,在 WikiHow 的一个段落中,选项 A 建议司机在红灯前只停两秒钟,这显然是错误和不切实际的。

数学基准测试

13. 数学数据集

文章中介绍的 MATH 数据集包含 12,500 道具有挑战性的数学竞赛题。它可以评估机器学习模型解决问题的能力。这些问题来自 AMC 10、AMC 12 和 AIME 等竞赛,涵盖不同难度级别和科目,如前代数、代数、数论和几何。与可以用已知公式解决的典型数学问题不同,MATH 问题需要解决问题的技巧和启发式方法。每个问题都包括一个逐步的解决方案,帮助模型学习生成答案推导和解释,以获得更多可解释的输出结果。

数学数据集

Source: Link

该示例包括各种数学问题的生成解和相应的地面实况解。最近一次 AIME 于 2 月 6 日举行,很快引起了数学界的兴趣。考试结束后,人们很快就在 YouTube、在线论坛和博客上分享了问题和解决方案。这种快速的讨论凸显了社区对这些挑战的热情。例如,第一个问题生成的解决方案正确且解释清楚,显示了成功的模型输出。相比之下,第二个问题涉及组合学和一个图形,对模型提出了挑战,导致了一个错误的解决方案。

14. 2025年美国数学邀请赛

美国数学邀请赛(AIME)是一项著名的数学竞赛,也是选拔美国队参加国际数学奥林匹克竞赛的第二阶段。大多数参赛者是高中生,但每年也有一些优秀的初中生获得参赛资格。这项考试由美国数学协会举办。

数学界很快就对 2 月 6 日举行的奥林匹克数学竞赛产生了兴趣,考试结束后不久就在 YouTube、论坛和博客上分享和讨论问题及解决方案。这种快速的分析反映了社区对这些具有挑战性的竞赛的热情。

2025年美国数学邀请赛

Source: Link

本图表示 AIME 2025 论文中的一个示例问题和解决方案。该基准侧重于 LLM 的数学推理能力。

小结

开发人员几乎每天都要在大型数据集上创建和训练新模型,使其具备各种能力。LLM 基准测试在比较这些模型方面起着至关重要的作用,它能回答一些基本问题,如哪种模型最适合编写代码、哪种模型在推理方面最出色、哪种模型能最有效地处理 NLP 任务等。因此,在这些基准测试上对模型进行评估就成了必经之路。随着我们向 AGI 快速迈进,研究人员也在创建新的基准测试,以跟上时代的进步。

评论留言