DeepSeek V3.2是最強大的開源LLM嗎?

DeepSeek V3.2是最強大的開源LLM嗎?

文章目录

  • 什麼是DeepSeek V3.2?
  • DeepSeek V3.2的效能和基準測試
  • 核心理念:更智慧的“略讀”
  • DeepSeek V3.2架構
  • 它真的有效嗎?
  • 這對使用者意味著什麼?
  • 工具使用中的思考
  • 任務 1:建立遊戲
  • 任務 2:規劃
  • 小結

DeepSeek V3.2是最強大的開源LLM嗎?

如果你一直關注開源邏輯模型(LLM)領域,你肯定知道它已經演變成一場激烈的競爭。每隔幾個月,就會有新的模型出現,聲稱突破了技術極限,而其中一些確實做到了。尤其是中國實驗室發展迅猛,推出了 GLM 4.6、Kimi K2 Thinking、Qwen 3 Next、ERNIE-4.5-VL 等模型。因此,當 DeepSeek 釋出 V3.2 版本時,人們最關心的問題並非“這是新的王者嗎?”,而是:

這次更新真的能推動開源邏輯模型的發展,還是僅僅是眾多模型中的又一個?

為了解答這個問題,讓我們一起來了解 V3.2 背後的故事,看看它有哪些變化,以及人們為何如此關注它。

什麼是DeepSeek V3.2?

DeepSeek V3.2 是 DeepSeek-V3.2-Exp 的升級版,後者於去年十月釋出。它旨在進一步提升推理能力、長上下文理解能力和智慧體工作流程,超越以往版本。與許多僅簡單地擴充套件引數的開源模型不同,V3.2 引入了架構變更和更強大的強化學習階段,旨在改進模型的思維方式,而不僅僅是其輸出結果。

DeepSeek 還發布了兩個變體:

  • V3.2(標準版):實用且易於部署的版本,適用於聊天、編碼、工具和日常工作負載。
  • V3.2 特別版:高計算能力、推理能力最大化的版本,能夠生成更長的思維鏈,並在奧林匹克級別的數學和程式設計競賽中表現出色。

DeepSeek V3.2的效能和基準測試

DeepSeek V3.2 擁有我們所見過的開源模型中最強勁的基準測試結果。

  • 在 AIME 2025 和 HMMT 2025 等數學密集型測試中,Speciale 版本分別取得了 96% 和 99.2% 的成績,與 GPT-5 High 和 Claude 4.5 等模型持平甚至超越。
  • 其 Codeforces 評分為 2701,穩居競技程式設計師級別,而 Thinking 版本也取得了 2386 的優異成績。
  • 在智慧體任務方面,DeepSeek 在 SWE Verified 和 τ² Bench 測試中分別取得了 73% 和 80% 的成績,表現不俗,儘管在某些類別中,一些頂級封閉模型略勝一籌。

DeepSeek V3.2的效能和基準測試

Source: DeepSeek Technical Report

核心理念:更智慧的“略讀”

大多數強大的AI模型都面臨一個共同的問題:隨著文件長度的增加,模型執行速度會顯著降低,成本也會大幅上升。這是因為傳統模型會嘗試將每個單詞與其他所有單詞進行比較,以理解上下文。

DeepSeek-V3.2 透過引入一種名為 DeepSeek 稀疏注意力 (DSA) 的新方法來解決這個問題。您可以將其想象成一位在圖書館進行研究的研究人員:

  • 傳統方法(密集註意力):研究人員逐頁閱讀書架上的每一本書,只為回答一個問題。這種方法雖然全面,但速度極慢且極其耗費精力。
  • 新方法(DeepSeek-V3.2):研究人員使用數字目錄(Lightning Indexer)快速找到關鍵頁面,並只閱讀這些頁面。這種方法同樣準確,但速度卻快得多。

傳統方法 vs 新方法

DeepSeek V3.2架構

DeepSeek V3.2架構 

Source: GitHub/DeepSeek

核心創新在於 DSA(DeepSeek 稀疏注意力機制),它包含兩個主要步驟:

1. Lightning Indexer (The Scout)

在 AI 嘗試理解文字之前,一個名為“Lightning Indexer”的輕量級超高速工具會掃描內容。它會給每條資訊賦予一個“相關性評分”。它會問:“這條資訊對我們當前的任務有用嗎?”

2. Top-k Selector (The Filter)

系統不會將所有資訊都輸入 AI 的大腦,而是隻選擇“Top-k”(得分最高)的資訊。AI 會忽略無關的冗餘資訊,並將計算能力嚴格集中在真正重要的資料上。

它真的有效嗎?

你可能會擔心“略讀”會導致 AI 的準確性下降。但根據資料,並非如此。

“略讀”不會導致 AI 的準確性下降

Source: GitHub/DeepSeek

  • 智慧水平相同:DeepSeek-V3.2 在標準測試和人類偏好圖表(ChatbotArena)上的表現與其前代產品 (DeepSeek-V3.1-Terminus) 一樣出色。
  • 更擅長處理長文件:令人驚訝的是,它在一些涉及超長文件的推理任務中得分更高。
  • 訓練:它首先透過觀察舊版、速度較慢的模型執行(密集預熱)來學習,然後自主練習以選擇正確的資訊(稀疏訓練)。

這對使用者意味著什麼?

以下是“它能為使用者帶來什麼”的價值主張:

  1. 速度大幅提升:由於模型無需處理無關詞語,因此執行速度顯著提升,尤其是在處理長文件(例如法律合同或書籍)時。
  2. 成本更低:它只需更少的計算能力(GPU 小時)即可獲得相同的結果。這使得執行高階 AI 的成本更低。
  3. 長上下文處理能力:使用者可以向系統輸入海量資料(高達 128,000 個令牌),系統執行速度不會驟降或崩潰,因此非常適合分析大型資料集或長篇故事。

工具使用中的思考

DeepSeek 現在在使用工具時能夠保留其內部推理上下文,而無需在每一步操作後重新開始思考,從而顯著提高完成複雜任務的速度和效率。

  • 以前,AI 每次使用工具(例如執行程式碼)時,都會忘記之前的計劃,不得不從頭開始“重新思考”問題。這既緩慢又浪費資源。
  • 現在,AI 在使用工具時能夠保持其思考過程的活躍狀態。它記住了執行任務的原因,無需在每一步操作後重新開始。
  • 它只會在您傳送新訊息時清除其“思路”。在此之前,它會專注於當前任務。

結果:由於模型不會浪費能量重複思考同一件事,因此速度更快、成本更低。

注意:當系統將“工具輸出”與“使用者訊息”分開時,此功能效果最佳。如果您的軟體將工具結果視為使用者聊天,則此功能將無法正常工作。

工具使用中的思考

Source: DeepSeek

您可以點選此處閱讀更多關於 DeepSeek V3.2 的資訊。讓我們看看該模型在以下部分的表現:

任務 1:建立遊戲

Create a cute and interactive UI for a “Guess the Word” game where the player knows a secret word and provides 3 short clues (max 10 letters each). The AI then has 3 attempts to guess the word. If the AI guesses correctly, it wins; otherwise, the player wins.

我的評價:

DeepSeek 建立了一個直觀的遊戲,並具備所有要求的功能。我認為這個實現非常出色,它提供了流暢且引人入勝的體驗,完美地滿足了所有要求。

任務 2:規劃

我需要規劃一次 11 月中旬前往日本京都的 7 天旅行。行程應以傳統文化為重點,包括寺廟、花園和茶道。尋找最佳賞楓時間,列出三座賞楓必去的寺廟,以及一家提供英語服務的、評價很高的傳統茶館。此外,在祇園地區尋找一家口碑不錯的日式旅館(ryokan)。將所有資訊整理成一份清晰的每日行程安排。

輸出:

旅行行程

點選此處檢視完整輸出。

我的看法:

對於想要清晰、可操作且節奏適宜的旅行計劃的旅行者來說,V3.2 的響應非常出色。其格式、邏輯清晰的地理佈局以及整合的實用建議使其幾乎可以開箱即用。它展現了將資訊有效整合為引人入勝的敘述的能力。

小結

DeepSeek V3.2 並非以規模取勝,而是以更智慧的思維取勝。憑藉稀疏注意力機制、更低的成本、更強的長上下文感知能力以及更優秀的工具使用推理能力,它展示了開源模型如何在無需鉅額硬體預算的情況下保持競爭力。它或許無法在所有基準測試中都拔得頭籌,但它確實顯著提升了使用者如今使用 AI 的方式。而這正是它在競爭激烈的市場中脫穎而出的原因。

評論留言