蘋果曝光o3、Claude和DeepSeek-R1推理缺陷

蘋果曝光o3、Claude和DeepSeek-R1推理缺陷

人工智慧行業浮現出一個相當殘酷的事實,重新定義了我們對人工智慧真正能力的認知。一篇名為《The Illusion of Thinking》的研究論文在科技界引起轟動,揭露了著名人工智慧“所謂推理”模型——Claude 3.7 Sonnet(思考)、DeepSeek-R1 和 OpenAI 的 o3-mini(高階)——的推理缺陷。研究證明,這些先進模型的推理方式與我們被引導相信的方式不同。那麼它們究竟在做什麼呢?讓我們深入研究蘋果這篇揭露人工智慧思維模型真相的研究論文,一探究竟。

人工智慧推理的巨大迷思

幾個月來,科技公司一直在宣傳他們的新模型是偉大的“推理”系統,能夠效仿人類循序漸進的思維方式來解決複雜問題。這些大型推理模型會在給出實際答案之前生成複雜的“思考過程”場景,展現幕後真正的認知工作。

但蘋果的研究人員揭開了這場科技大戲的帷幕,揭示了人工智慧聊天機器人的真正能力,儘管它們看起來相當呆板。這些模型似乎更像是模式匹配器,在面對真正複雜的問題時根本無法發揮作用。

《The Illusion of Thinking》-01 Source: Apple Research

毀滅性的發現

《The Illusion of Thinking》中提出的觀察結果,會讓任何已經對當前人工智慧系統推理能力押注的人感到不安。蘋果的研究團隊由精心設計可控謎題環境的科學家領導,並取得了三大里程碑式的發現:

1. 複雜性懸崖

其中一項重要發現是,這些所謂的先進推理模型,在超過某些複雜性閾值後,會遭遇研究人員所稱的“準確率完全崩潰”。這一觀察結果並非隨著時間的推移而緩慢下降,而是直接暴露了它們所謂“推理”的膚淺本質。

想象一下,一位國際象棋大師突然忘記了棋子該如何走,僅僅因為你在棋盤上加了一行。這正是這些模型在研究中的表現。這些模型在熟悉的問題集上看似極其智慧,但一旦被推離舒適區哪怕一英寸,就會突然完全迷失。

2. 努力悖論

更令人費解的是,蘋果發現這些模型在任何邏輯推理面前都存在擴充套件障礙。隨著問題的難度越來越大,這些模型最初會加大推理力度,展現出更長的思考過程和更詳細的步驟。然而,到了一定程度,它們就會停止嘗試,並開始減少對任務的關注,儘管它們擁有強大的計算資源。

這就像一個學生,面對越來越難的數學題,一開始會努力嘗試,但到了一定程度就會失去興趣,開始胡亂猜測答案,儘管他有充足的時間來解決問題。

3. 三個效能區域

在第三個發現中,蘋果確定了三個純粹效能區域,揭示了這些系統的本質:

  • 低複雜度任務:標準AI模型在這些任務中的表現優於“推理”模型,這表明額外的推理步驟可能只是一場代價高昂的作秀。
  • 中等複雜度任務:這被認為是推理模型大放異彩的最佳時機。
  • 高複雜度任務:在這些任務中,標準模型和推理模型都出現了顯著的失敗,暗示著其固有的侷限性。

《The Illusion of Thinking》-02 Source: Apple Research

基準測試問題與蘋果的解決方案

“The Illusion of Thinking”也揭示了人工智慧評估的秘密。大多數基準測試都包含訓練資料,這使得模型看起來比實際更強大。因此,這些測試在很大程度上是基於記憶例項來評估模型的。而蘋果則建立了一個更具啟發性的評估流程。研究團隊在以下四個複雜度可系統調整的邏輯謎題上測試了這些模型:

  1. 漢諾塔:透過規劃移動圓盤,使棋子向前移動幾步。
  2. 跳棋:基於空間推理和順序規劃,策略性地移動棋子。
  3. 過河:一個關於在約束條件下讓多個實體過河的邏輯謎題。
  4. 積木堆疊:一個需要了解物理關係的 3D 推理任務。

這些任務或問題的選擇絕非隨機。每個問題都可以精確地從簡單到令人難以置信地擴充套件,以便研究人員可以知道人工智慧推理在哪個層面上失敗。

觀察人工智慧“思考”:真相

與大多數傳統基準測試不同,這些謎題並沒有限制研究人員只關注最終答案。它們實際上揭示了待評估模型的整個推理鏈。研究人員可以觀察模型逐步解決問題的過程,瞭解機器是在遵循邏輯原理,還是僅僅根據記憶進行模式匹配。

結果令人大開眼界。一些模型看似能夠完美地“推理”問題,但隨著複雜性的增加,它們會突然變得不合邏輯,放棄系統性方法,或者乾脆放棄,儘管就在片刻之前,它們還完美地展示了所需的技能。

透過創造新的、可控的謎題環境,蘋果公司規避了汙染問題,並暴露了模型的全部侷限性。結果令人警醒。面對無法記憶的真實、全新、新鮮的挑戰,即使是最先進的推理模型也會舉步維艱,這凸顯了它們面臨的真正侷限性。

結果與分析

在所有四種型別的謎題中,蘋果的研究人員記錄了一致的失敗模式,這些模式展現了當今人工智慧能力的嚴峻前景。

  • 準確性問題:在這些謎題集上,一個在簡化版本上表現近乎完美的模型,在準確率上卻出現了驚人的下降。有時,僅僅增加了幾個複雜的步驟,它的成功率就會從接近 90% 下降到幾乎完全失敗。這並非漸進式的下降,而是突然的災難性失敗。
  • 邏輯應用不一致:模型有時在展示非常正確的方法知識時,無法一致地應用演算法。例如,一個模型可能在一個漢諾塔謎題中成功地應用了系統性策略,但在一個非常相似但稍微複雜一些的例子中,卻放棄了該策略。
  • 努力悖論的作用: 研究人員研究了模型與問題難度之間的關聯性,並研究了模型的“思考”量。這涵蓋了從推理軌跡的長度到粒度的各個層面。最初,思考的努力程度隨著複雜性的增加而增加。然而,隨著問題變得越來越難解決,即使提供了無限的計算資源,模型也會異常地開始放鬆努力。
  • 計算捷徑: 研究還發現,該模型傾向於採用計算捷徑,這些捷徑在處理簡單問題時非常有效,但在更困難的情況下會導致災難性的失敗。該模型不會識別這種模式並嘗試彌補,而是會繼續嘗試糟糕的策略或乾脆放棄。

這些發現表明,從本質上講,當前的人工智慧推理比公開演示讓我們相信的更加脆弱和有限。這些模型尚未學會推理;目前,它們只能識別推理並在其他地方見過它時進行復制。

《The Illusion of Thinking》-03 Source: Apple Research

為什麼這對人工智慧的未來如此重要?

《The Illusion of Thinking》一文絕非學術上的吹毛求疵,而是深刻地觸及了人工智慧的影響。我們可以看到,它影響著整個人工智慧行業以及任何可能使用人工智慧能力做出決策的人。

蘋果的研究表明,所謂的“推理”實際上只是一種非常複雜的記憶和模式匹配。這些模型擅長識別它們以前見過的問題模式,並將其與之前學過的解決方案聯絡起來。然而,當被要求對一個對它們來說全新的問題進行真正的邏輯推理時,它們往往會失敗。

在過去的幾個月裡,人工智慧界對推理模型的進步感到驚歎,正如其母公司所展示的那樣。行業領袖甚至向我們承諾,通用人工智慧(AGI)即將到來。《思考的錯覺》告訴我們,這種評估過於樂觀了。如果現有的“推理”模型無法處理超出當前基準的複雜度,而它們實際上只是裝點門面的模式匹配系統,那麼通往真正的通用人工智慧 (AGI) 的道路可能比矽谷最樂觀的方案還要漫長和艱難。

儘管蘋果的研究令人擔憂,但並非完全悲觀。人工智慧模型在中等複雜度範圍內的表現體現了其推理能力的實際進步。在這一類別中,這些系統可以執行真正複雜的任務,而這些任務在大約四年前還被認為是不可能的。

小結

蘋果的研究標誌著人工智慧系統從狂熱的炒作轉向精確的科學測量的轉折點。這正是人工智慧行業面臨的下一個選擇。是繼續追逐基準分數和市場宣傳,還是專注於構建真正能夠進行一定程度推理的系統?選擇後者的公司最終可能會構建出我們真正需要的人工智慧系統。

然而,很明顯,未來通往通用人工智慧 (AGI) 的道路需要的不僅僅是規模化的模式匹配器。他們需要從根本上革新推理、理解和真正智慧的方法。思考的幻覺或許令人信服,但正如蘋果公司所表明的那樣,它們終究只是幻覺而已。設計真正智慧系統的真正任務才剛剛開始。

評論留言