DeepSeek V3.2是最强大的开源LLM吗?

DeepSeek V3.2是最强大的开源LLM吗?

文章目录

  • 什么是DeepSeek V3.2?
  • DeepSeek V3.2的性能和基准测试
  • 核心理念:更智能的“略读”
  • DeepSeek V3.2架构
  • 它真的有效吗?
  • 这对用户意味着什么?
  • 工具使用中的思考
  • 任务 1:创建游戏
  • 任务 2:规划
  • 小结

DeepSeek V3.2是最强大的开源LLM吗?

如果你一直关注开源逻辑模型(LLM)领域,你肯定知道它已经演变成一场激烈的竞争。每隔几个月,就会有新的模型出现,声称突破了技术极限,而其中一些确实做到了。尤其是中国实验室发展迅猛,推出了 GLM 4.6、Kimi K2 Thinking、Qwen 3 Next、ERNIE-4.5-VL 等模型。因此,当 DeepSeek 发布 V3.2 版本时,人们最关心的问题并非“这是新的王者吗?”,而是:

这次更新真的能推动开源逻辑模型的发展,还是仅仅是众多模型中的又一个?

为了解答这个问题,让我们一起来了解 V3.2 背后的故事,看看它有哪些变化,以及人们为何如此关注它。

什么是DeepSeek V3.2?

DeepSeek V3.2 是 DeepSeek-V3.2-Exp 的升级版,后者于去年十月发布。它旨在进一步提升推理能力、长上下文理解能力和智能体工作流程,超越以往版本。与许多仅简单地扩展参数的开源模型不同,V3.2 引入了架构变更和更强大的强化学习阶段,旨在改进模型的思维方式,而不仅仅是其输出结果。

DeepSeek 还发布了两个变体:

  • V3.2(标准版):实用且易于部署的版本,适用于聊天、编码、工具和日常工作负载。
  • V3.2 特别版:高计算能力、推理能力最大化的版本,能够生成更长的思维链,并在奥林匹克级别的数学和编程竞赛中表现出色。

DeepSeek V3.2的性能和基准测试

DeepSeek V3.2 拥有我们所见过的开源模型中最强劲的基准测试结果。

  • 在 AIME 2025 和 HMMT 2025 等数学密集型测试中,Speciale 版本分别取得了 96% 和 99.2% 的成绩,与 GPT-5 High 和 Claude 4.5 等模型持平甚至超越。
  • 其 Codeforces 评分为 2701,稳居竞技程序员级别,而 Thinking 版本也取得了 2386 的优异成绩。
  • 在智能体任务方面,DeepSeek 在 SWE Verified 和 τ² Bench 测试中分别取得了 73% 和 80% 的成绩,表现不俗,尽管在某些类别中,一些顶级封闭模型略胜一筹。

DeepSeek V3.2的性能和基准测试

Source: DeepSeek Technical Report

核心理念:更智能的“略读”

大多数强大的AI模型都面临一个共同的问题:随着文档长度的增加,模型运行速度会显著降低,成本也会大幅上升。这是因为传统模型会尝试将每个单词与其他所有单词进行比较,以理解上下文。

DeepSeek-V3.2 通过引入一种名为 DeepSeek 稀疏注意力 (DSA) 的新方法来解决这个问题。您可以将其想象成一位在图书馆进行研究的研究人员:

  • 传统方法(密集注意力):研究人员逐页阅读书架上的每一本书,只为回答一个问题。这种方法虽然全面,但速度极慢且极其耗费精力。
  • 新方法(DeepSeek-V3.2):研究人员使用数字目录(Lightning Indexer)快速找到关键页面,并只阅读这些页面。这种方法同样准确,但速度却快得多。

传统方法 vs 新方法

DeepSeek V3.2架构

DeepSeek V3.2架构 

Source: GitHub/DeepSeek

核心创新在于 DSA(DeepSeek 稀疏注意力机制),它包含两个主要步骤:

1. Lightning Indexer (The Scout)

在 AI 尝试理解文本之前,一个名为“Lightning Indexer”的轻量级超高速工具会扫描内容。它会给每条信息赋予一个“相关性评分”。它会问:“这条信息对我们当前的任务有用吗?”

2. Top-k Selector (The Filter)

系统不会将所有信息都输入 AI 的大脑,而是只选择“Top-k”(得分最高)的信息。AI 会忽略无关的冗余信息,并将计算能力严格集中在真正重要的数据上。

它真的有效吗?

你可能会担心“略读”会导致 AI 的准确性下降。但根据数据,并非如此。

“略读”不会导致 AI 的准确性下降

Source: GitHub/DeepSeek

  • 智能水平相同:DeepSeek-V3.2 在标准测试和人类偏好图表(ChatbotArena)上的表现与其前代产品 (DeepSeek-V3.1-Terminus) 一样出色。
  • 更擅长处理长文档:令人惊讶的是,它在一些涉及超长文档的推理任务中得分更高。
  • 训练:它首先通过观察旧版、速度较慢的模型运行(密集预热)来学习,然后自主练习以选择正确的信息(稀疏训练)。

这对用户意味着什么?

以下是“它能为用户带来什么”的价值主张:

  1. 速度大幅提升:由于模型无需处理无关词语,因此运行速度显著提升,尤其是在处理长文档(例如法律合同或书籍)时。
  2. 成本更低:它只需更少的计算能力(GPU 小时)即可获得相同的结果。这使得运行高端 AI 的成本更低。
  3. 长上下文处理能力:用户可以向系统输入海量数据(高达 128,000 个令牌),系统运行速度不会骤降或崩溃,因此非常适合分析大型数据集或长篇故事。

工具使用中的思考

DeepSeek 现在在使用工具时能够保留其内部推理上下文,而无需在每一步操作后重新开始思考,从而显著提高完成复杂任务的速度和效率。

  • 以前,AI 每次使用工具(例如运行代码)时,都会忘记之前的计划,不得不从头开始“重新思考”问题。这既缓慢又浪费资源。
  • 现在,AI 在使用工具时能够保持其思考过程的活跃状态。它记住了执行任务的原因,无需在每一步操作后重新开始。
  • 它只会在您发送新消息时清除其“思路”。在此之前,它会专注于当前任务。

结果:由于模型不会浪费能量重复思考同一件事,因此速度更快、成本更低。

注意:当系统将“工具输出”与“用户消息”分开时,此功能效果最佳。如果您的软件将工具结果视为用户聊天,则此功能将无法正常工作。

工具使用中的思考

Source: DeepSeek

您可以点击此处阅读更多关于 DeepSeek V3.2 的信息。让我们看看该模型在以下部分的表现:

任务 1:创建游戏

Create a cute and interactive UI for a “Guess the Word” game where the player knows a secret word and provides 3 short clues (max 10 letters each). The AI then has 3 attempts to guess the word. If the AI guesses correctly, it wins; otherwise, the player wins.

我的评价:

DeepSeek 创建了一个直观的游戏,并具备所有要求的功能。我认为这个实现非常出色,它提供了流畅且引人入胜的体验,完美地满足了所有要求。

任务 2:规划

我需要规划一次 11 月中旬前往日本京都的 7 天旅行。行程应以传统文化为重点,包括寺庙、花园和茶道。寻找最佳赏枫时间,列出三座赏枫必去的寺庙,以及一家提供英语服务的、评价很高的传统茶馆。此外,在祇园地区寻找一家口碑不错的日式旅馆(ryokan)。将所有信息整理成一份清晰的每日行程安排。

输出:

旅行行程

点击此处查看完整输出。

我的看法:

对于想要清晰、可操作且节奏适宜的旅行计划的旅行者来说,V3.2 的响应非常出色。其格式、逻辑清晰的地理布局以及集成的实用建议使其几乎可以开箱即用。它展现了将信息有效整合为引人入胜的叙述的能力。

小结

DeepSeek V3.2 并非以规模取胜,而是以更智能的思维取胜。凭借稀疏注意力机制、更低的成本、更强的长上下文感知能力以及更优秀的工具使用推理能力,它展示了开源模型如何在无需巨额硬件预算的情况下保持竞争力。它或许无法在所有基准测试中都拔得头筹,但它确实显著提升了用户如今使用 AI 的方式。而这正是它在竞争激烈的市场中脱颖而出的原因。

评论留言

闪电侠

(工作日 10:00 - 18:30 为您服务)

2025-12-14 16:36:35

您好,无论是售前、售后、意见建议……均可通过联系工单与我们取得联系。

您也可选择聊天工具与我们即时沟通或点击查看:

您的工单我们已经收到,我们将会尽快跟您联系!
取消
选择聊天工具: