DeepSeek-V3.1-Terminus评测：更稳定可靠的混合专家模型与实战能力

DeepSeek-V3.1-Terminus评测

说到开源 AI 模型，DeepSeek 是人们首先想到的名字之一。DeepSeek 以社区优先的平台而闻名，团队始终认真对待用户反馈，并将其转化为切实可行的改进。正因如此，DeepSeek 的每一次新版本发布都感觉不像是一次渐进式升级，而更像是社区实际需求的体现。他们的最新版本 DeepSeek-V3.1-Terminus 也不例外。作为迄今为止最完善的模型，它突破了代理 AI 的界限，同时直接解决了用户在早期版本中指出的关键缺陷。

什么是DeepSeek-V3.1-Terminus？

DeepSeek-V3.1-Terminus 是该公司混合推理模型 DeepSeek-V3.1 的更新迭代。之前的版本取得了巨大的进步，但 Terminus 致力于提供更稳定、可靠和一致的体验。 “Terminus”这个名称表明，此版本是“V3”系列模型的最终版本，直至新架构 V4 的发布。该模型总共拥有 6710 亿个参数（其中 370 亿个参数在任何给定时间处于活动状态），并将继续以强大高效的混合专家模型 (MoE) 的形式向前发展。

Deepseek-V3.1-Terminus的主要特性

Terminus 充分利用了 V3.1 的核心优势，并对其进行了进一步的增强，尤其是在支持实际应用的领域。以下是其特性概述：

更好的语言一致性：上一版本的一个重要问题是中英文混排以及生成的奇怪字符。Terminus 旨在提供更清晰、更一致的语言输出，这对于开发多语言应用程序的任何人来说都是一个巨大的优势。
增强的代理功能：这是 Terminus 备受关注的地方。该模型的代码代理和搜索代理功能得到了显著改进。因此，它在执行以下任务时更加可靠：
- 实时网页浏览和特定地理位置的信息检索。
- 基于结构和软件工程的编码。
- 在需要外部工具时调用工具并进行多步推理。

Deepseek-V3.1-Terminus的主要特性

混合推理：Terminus 继承了前代的双模式功能。
- 思考模式 (deepseek-reasoner)：对于复杂的多步骤问题，该模型可以进行一系列思考，然后给出最终答案。说到思考模式，信不信由你，它几乎不需要任何预处理就能帮助你完成任务。
- 非思考模式 (deepseek-chat)：对于简单的任务，它可以快速提炼答案并提供直接的答案。

海量上下文窗口：该模型能够支持高达 128,000 个 token 的庞大上下文窗口，这使得它能够在单次迭代中处理冗长的文档和庞大的代码库。

模型	Deepseek-V3.1-Terminus (非思考模式)	Deepseek-V3.1-Terminus (思考模式)
JSON 输出	✓	✓
功能调用	✓	✗(1)
聊天前缀完成 (Beta)	✓	✓
FIM 完成 (Beta)	✓	✗
最大输出	默认: 4K 最大: 8K	默认: 32K 最大: 64K
上下文长度	128K	128K

如何开始使用Deepseek-V3.1-Terminus？

DeepSeek 通过多种渠道分发该模型，覆盖了从业余爱好者到企业开发者的广泛用户群体。

网页和 App：体验 Terminus 最简单的方式是直接通过 DeepSeek 的官方网页平台或移动 App。这提供了直观的界面，可立即使用，无需设置。

API：对于开发者来说，DeepSeek API 是一个不错的选择。该 API 与 OpenAI 兼容，您可以使用熟悉的 OpenAI SDK 或任何支持 OpenAI API 的第三方软件。您只需更改基础 URL 和 API 密钥即可。DeepSeek 的定价极具竞争力，其输出代币比许多高级模型选项便宜得多。

模型	Deepseek-V3.1-Terminus (非思考模式)	Deepseek-V3.1-Terminus (思考模式)
百万输入令牌 (缓存命中)	$0.07	$0.07
百万输入令牌 (缓存未命中)	$0.56	$0.56
百万输出令牌	$1.68	$1.68

本地运行：如果您希望自行托管模型，可以在 Hugging Face 上获取模型权重，该模型遵循开源且宽松的 MIT 许可证。在本地机器上运行模型需要大量硬件；但是，社区提供了一些有用的资源和指南，可以优化体验，例如，将 MoE 层卸载到 CPU 可以降低 VRAM 的利用率。

本地运行Deepseek-V3.1-Terminus

网页版应用上手体验

网页界面的使用非常简单。打开 DeepSeek 并发起聊天。您可以使用“思考”和“非思考”模式来比较回复的风格和深度。您可以给“思考”模式下达一个复杂的编码任务，或者让它浏览网页查找信息，随着它制定计划并执行任务，您将立即看到智能体能力的提升。

搜索智能体提示词：

“I need to plan a 7-day trip to Kyoto, Japan, for mid-November. The itinerary should focus on traditional culture, including temples, gardens, and tea ceremonies. Find the best time to see the autumn leaves, a list of three must-visit temples for ‘Momiji’ (autumn leaves), and a highly-rated traditional tea house with English-friendly services. Also, find a well-reviewed ryokan (traditional Japanese inn) in the Gion district. Organize all the information into a clear, day-by-day itinerary.”

响应：

搜索智能体提示词

完整聊天: Deepseek

编码代理提示词：

“I need a Python script that scrapes a public list of the top 100 films of all time from a website (you can choose a reliable source like IMDb, Rotten Tomatoes, or a well-known magazine’s list). The script should then save the film titles, release years, and a brief description for each movie into a JSON file. Include error handling for network issues or changes in the website’s structure. Can you generate the full script and explain each step of the process?”

响应：

编码代理提示词

完整聊天: Deepseek

DeepSeek-V3.1-Terminus 标志着所有使用 AI 代理的开发者都取得了重大进展。我使用之前的版本已经有一段时间了，虽然它非常令人印象深刻，但也存在一些令人沮丧的时刻，比如它有时会混合语言，或者在多步骤的编码任务中迷失方向。使用 Terminus 的体验让我感觉开发团队认真倾听了我的意见。语言一致性现在非常稳定，而且它能够毫无问题地进行复杂的网页搜索和信息合成，这真的让我印象深刻。它不再只是一个强大的聊天模型；它更是复杂现实任务的可靠智能伙伴。

如何在本地运行DeepSeek-V3-Terminus？

对于拥有更多技术知识的用户，您可以在本地运行 DeepSeek-V3.1-Terminus，以获得更强大的功能和更私密的体验。

下载权重：前往 DeepSeek AI Hugging Face 官方页面并下载模型权重。完整模型包含 6710 亿个参数，需要大量磁盘空间。如果空间有限，您可能需要下载量化版本，例如 GGUF 模型。
使用框架：使用流行的框架（例如 Llama.cpp 或 Ollama）来加载和运行模型。这些框架可以降低在消费级硬件上运行大型模型的复杂性。
针对您的硬件进行优化：由于该模型是专家混合模型，您可以将部分层迁移到 CPU 以节省 GPU 显存。这可能需要一些实验才能找到适合您设置的速度和内存使用的最佳平衡点。

设置指南

按照以下命令在您的本地环境中设置 DeepSeek 模型。

git clone https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
cd DeepSeek-V3.1-Terminus
pip install -r requirements.txt
python inference/demo.py \
  --input "Implement a minimal Redis clone in Go that supports SET, GET, DEL." \
  --reasoning true \
  --max_tokens 2048

本地环境中设置 DeepSeek 模型

基准测试对比

尽管在纯推理基准测试中性能略有提升，但 Terminus 的亮点在于其基于任务的代理性能。该模型在以下基于代理的基准测试中取得了显著提升：

BrowseComp：从 30.0 大幅提升至 38.5，表明其执行多步骤网页搜索的能力有所提升。
SWE Verified：从 66.0 大幅提升至 68.4，尤其是在依赖外部工具的软件工程任务方面。
Terminus 基准测试：从 31.3 显著提升至 36.7，表明 Code Agent 在处理命令行式任务方面表现更佳。

我们应该注意到中文 BrowseComp 基准测试中的性能有所下降，这可能表明多语言一致性改进措施有利于英语性能。无论如何，对于任何使用代理工作流和外部工具的开发者来说，Terminus 都提供了显著的提升。

基准测试对比

Source: DeepSeek

小结

DeepSeek-V3.1-Terminus 的设计目标并非在所有基准测试中都打破纪录；并非如此，这是一个有针对性的版本，专注于现实世界中实际应用的关键：更高的稳定性、可靠性以及卓越的代理功能。DeepSeek 解决了之前的一些不一致之处，并增强了其利用工具的能力，打造了一个卓越的开源模型，其可部署性和实用性前所未有。因此，无论您是试图构建下一代卓越 AI 助手的开发者，还是仅仅想了解未来发展方向的技术爱好者，Terminus 都值得您再次关注。

DeepSeek 混合专家模型

DeepSeek-V3.1-Terminus评测：更稳定可靠的混合专家模型与实战能力

文章目录

什么是DeepSeek-V3.1-Terminus？

Deepseek-V3.1-Terminus的主要特性

如何开始使用Deepseek-V3.1-Terminus？

网页版应用上手体验

搜索智能体提示词：

编码代理提示词：

如何在本地运行DeepSeek-V3-Terminus？

设置指南

基准测试对比

小结

评论留言

取消回复

DeepSeek-V3.1-Terminus评测：更稳定可靠的混合专家模型与实战能力

文章目录

什么是DeepSeek-V3.1-Terminus？

Deepseek-V3.1-Terminus的主要特性

如何开始使用Deepseek-V3.1-Terminus？

网页版应用上手体验

搜索智能体提示词：

编码代理提示词：

如何在本地运行DeepSeek-V3-Terminus？

设置指南

基准测试对比

小结

相关文章

评论留言

取消回复