人工智能行业浮现出一个相当残酷的事实,重新定义了我们对人工智能真正能力的认知。一篇名为《The Illusion of Thinking》的研究论文在科技界引起轰动,揭露了著名人工智能“所谓推理”模型——Claude 3.7 Sonnet(思考)、DeepSeek-R1 和 OpenAI 的 o3-mini(高级)——的推理缺陷。研究证明,这些先进模型的推理方式与我们被引导相信的方式不同。那么它们究竟在做什么呢?让我们深入研究苹果这篇揭露人工智能思维模型真相的研究论文,一探究竟。
人工智能推理的巨大迷思
几个月来,科技公司一直在宣传他们的新模型是伟大的“推理”系统,能够效仿人类循序渐进的思维方式来解决复杂问题。这些大型推理模型会在给出实际答案之前生成复杂的“思考过程”场景,展现幕后真正的认知工作。
但苹果的研究人员揭开了这场科技大戏的帷幕,揭示了人工智能聊天机器人的真正能力,尽管它们看起来相当呆板。这些模型似乎更像是模式匹配器,在面对真正复杂的问题时根本无法发挥作用。
Source: Apple Research
毁灭性的发现
《The Illusion of Thinking》中提出的观察结果,会让任何已经对当前人工智能系统推理能力押注的人感到不安。苹果的研究团队由精心设计可控谜题环境的科学家领导,并取得了三大里程碑式的发现:
1. 复杂性悬崖
其中一项重要发现是,这些所谓的先进推理模型,在超过某些复杂性阈值后,会遭遇研究人员所称的“准确率完全崩溃”。这一观察结果并非随着时间的推移而缓慢下降,而是直接暴露了它们所谓“推理”的肤浅本质。
想象一下,一位国际象棋大师突然忘记了棋子该如何走,仅仅因为你在棋盘上加了一行。这正是这些模型在研究中的表现。这些模型在熟悉的问题集上看似极其智能,但一旦被推离舒适区哪怕一英寸,就会突然完全迷失。
2. 努力悖论
更令人费解的是,苹果发现这些模型在任何逻辑推理面前都存在扩展障碍。随着问题的难度越来越大,这些模型最初会加大推理力度,展现出更长的思考过程和更详细的步骤。然而,到了一定程度,它们就会停止尝试,并开始减少对任务的关注,尽管它们拥有强大的计算资源。
这就像一个学生,面对越来越难的数学题,一开始会努力尝试,但到了一定程度就会失去兴趣,开始胡乱猜测答案,尽管他有充足的时间来解决问题。
3. 三个性能区域
在第三个发现中,苹果确定了三个纯粹性能区域,揭示了这些系统的本质:
- 低复杂度任务:标准AI模型在这些任务中的表现优于“推理”模型,这表明额外的推理步骤可能只是一场代价高昂的作秀。
- 中等复杂度任务:这被认为是推理模型大放异彩的最佳时机。
- 高复杂度任务:在这些任务中,标准模型和推理模型都出现了显著的失败,暗示着其固有的局限性。
Source: Apple Research
基准测试问题与苹果的解决方案
“The Illusion of Thinking”也揭示了人工智能评估的秘密。大多数基准测试都包含训练数据,这使得模型看起来比实际更强大。因此,这些测试在很大程度上是基于记忆实例来评估模型的。而苹果则创建了一个更具启发性的评估流程。研究团队在以下四个复杂度可系统调整的逻辑谜题上测试了这些模型:
- 汉诺塔:通过规划移动圆盘,使棋子向前移动几步。
- 跳棋:基于空间推理和顺序规划,策略性地移动棋子。
- 过河:一个关于在约束条件下让多个实体过河的逻辑谜题。
- 积木堆叠:一个需要了解物理关系的 3D 推理任务。
这些任务或问题的选择绝非随机。每个问题都可以精确地从简单到令人难以置信地扩展,以便研究人员可以知道人工智能推理在哪个层面上失败。
观察人工智能“思考”:真相
与大多数传统基准测试不同,这些谜题并没有限制研究人员只关注最终答案。它们实际上揭示了待评估模型的整个推理链。研究人员可以观察模型逐步解决问题的过程,了解机器是在遵循逻辑原理,还是仅仅根据记忆进行模式匹配。
结果令人大开眼界。一些模型看似能够完美地“推理”问题,但随着复杂性的增加,它们会突然变得不合逻辑,放弃系统性方法,或者干脆放弃,尽管就在片刻之前,它们还完美地展示了所需的技能。
通过创造新的、可控的谜题环境,苹果公司规避了污染问题,并暴露了模型的全部局限性。结果令人警醒。面对无法记忆的真实、全新、新鲜的挑战,即使是最先进的推理模型也会举步维艰,这凸显了它们面临的真正局限性。
结果与分析
在所有四种类型的谜题中,苹果的研究人员记录了一致的失败模式,这些模式展现了当今人工智能能力的严峻前景。
- 准确性问题:在这些谜题集上,一个在简化版本上表现近乎完美的模型,在准确率上却出现了惊人的下降。有时,仅仅增加了几个复杂的步骤,它的成功率就会从接近 90% 下降到几乎完全失败。这并非渐进式的下降,而是突然的灾难性失败。
- 逻辑应用不一致:模型有时在展示非常正确的方法知识时,无法一致地应用算法。例如,一个模型可能在一个汉诺塔谜题中成功地应用了系统性策略,但在一个非常相似但稍微复杂一些的例子中,却放弃了该策略。
- 努力悖论的作用: 研究人员研究了模型与问题难度之间的关联性,并研究了模型的“思考”量。这涵盖了从推理轨迹的长度到粒度的各个层面。最初,思考的努力程度随着复杂性的增加而增加。然而,随着问题变得越来越难解决,即使提供了无限的计算资源,模型也会异常地开始放松努力。
- 计算捷径: 研究还发现,该模型倾向于采用计算捷径,这些捷径在处理简单问题时非常有效,但在更困难的情况下会导致灾难性的失败。该模型不会识别这种模式并尝试弥补,而是会继续尝试糟糕的策略或干脆放弃。
这些发现表明,从本质上讲,当前的人工智能推理比公开演示让我们相信的更加脆弱和有限。这些模型尚未学会推理;目前,它们只能识别推理并在其他地方见过它时进行复制。
Source: Apple Research
为什么这对人工智能的未来如此重要?
《The Illusion of Thinking》一文绝非学术上的吹毛求疵,而是深刻地触及了人工智能的影响。我们可以看到,它影响着整个人工智能行业以及任何可能使用人工智能能力做出决策的人。
苹果的研究表明,所谓的“推理”实际上只是一种非常复杂的记忆和模式匹配。这些模型擅长识别它们以前见过的问题模式,并将其与之前学过的解决方案联系起来。然而,当被要求对一个对它们来说全新的问题进行真正的逻辑推理时,它们往往会失败。
在过去的几个月里,人工智能界对推理模型的进步感到惊叹,正如其母公司所展示的那样。行业领袖甚至向我们承诺,通用人工智能(AGI)即将到来。《思考的错觉》告诉我们,这种评估过于乐观了。如果现有的“推理”模型无法处理超出当前基准的复杂度,而它们实际上只是装点门面的模式匹配系统,那么通往真正的通用人工智能 (AGI) 的道路可能比硅谷最乐观的方案还要漫长和艰难。
尽管苹果的研究令人担忧,但并非完全悲观。人工智能模型在中等复杂度范围内的表现体现了其推理能力的实际进步。在这一类别中,这些系统可以执行真正复杂的任务,而这些任务在大约四年前还被认为是不可能的。
小结
苹果的研究标志着人工智能系统从狂热的炒作转向精确的科学测量的转折点。这正是人工智能行业面临的下一个选择。是继续追逐基准分数和市场宣传,还是专注于构建真正能够进行一定程度推理的系统?选择后者的公司最终可能会构建出我们真正需要的人工智能系统。
然而,很明显,未来通往通用人工智能 (AGI) 的道路需要的不仅仅是规模化的模式匹配器。他们需要从根本上革新推理、理解和真正智能的方法。思考的幻觉或许令人信服,但正如苹果公司所表明的那样,它们终究只是幻觉而已。设计真正智能系统的真正任务才刚刚开始。
评论留言