DeepSeek-V3.1-Terminus評測：更穩定可靠的混合專家模型與實戰能力

DeepSeek-V3.1-Terminus評測

說到開源 AI 模型，DeepSeek 是人們首先想到的名字之一。DeepSeek 以社羣優先的平臺而聞名，團隊始終認真對待使用者反饋，並將其轉化為切實可行的改進。正因如此，DeepSeek 的每一次新版本釋出都感覺不像是一次漸進式升級，而更像是社羣實際需求的體現。他們的最新版本 DeepSeek-V3.1-Terminus 也不例外。作為迄今為止最完善的模型，它突破了代理 AI 的界限，同時直接解決了使用者在早期版本中指出的關鍵缺陷。

什麼是DeepSeek-V3.1-Terminus？

DeepSeek-V3.1-Terminus 是該公司混合推理模型 DeepSeek-V3.1 的更新迭代。之前的版本取得了巨大的進步，但 Terminus 致力於提供更穩定、可靠和一致的體驗。 “Terminus”這個名稱表明，此版本是“V3”系列模型的最終版本，直至新架構 V4 的釋出。該模型總共擁有 6710 億個引數（其中 370 億個引數在任何給定時間處於活動狀態），並將繼續以強大高效的混合專家模型 (MoE) 的形式向前發展。

Deepseek-V3.1-Terminus的主要特性

Terminus 充分利用了 V3.1 的核心優勢，並對其進行了進一步的增強，尤其是在支援實際應用的領域。以下是其特性概述：

更好的語言一致性：上一版本的一個重要問題是中英文混排以及生成的奇怪字元。Terminus 旨在提供更清晰、更一致的語言輸出，這對於開發多語言應用程式的任何人來說都是一個巨大的優勢。
增強的代理功能：這是 Terminus 備受關注的地方。該模型的程式碼代理和搜尋代理功能得到了顯著改進。因此，它在執行以下任務時更加可靠：
- 即時網頁瀏覽和特定地理位置的資訊檢索。
- 基於結構和軟體工程的編碼。
- 在需要外部工具時呼叫工具並進行多步推理。

Deepseek-V3.1-Terminus的主要特性

混合推理：Terminus 繼承了前代的雙模式功能。
- 思考模式 (deepseek-reasoner)：對於複雜的多步驟問題，該模型可以進行一系列思考，然後給出最終答案。說到思考模式，信不信由你，它幾乎不需要任何預處理就能幫助你完成任務。
- 非思考模式 (deepseek-chat)：對於簡單的任務，它可以快速提煉答案並提供直接的答案。

海量上下文視窗：該模型能夠支援高達 128,000 個 token 的龐大上下文視窗，這使得它能夠在單次迭代中處理冗長的文件和龐大的程式碼庫。

模型	Deepseek-V3.1-Terminus (非思考模式)	Deepseek-V3.1-Terminus (思考模式)
JSON 輸出	✓	✓
功能呼叫	✓	✗(1)
聊天字首完成 (Beta)	✓	✓
FIM 完成 (Beta)	✓	✗
最大輸出	預設: 4K 最大: 8K	預設: 32K 最大: 64K
上下文長度	128K	128K

如何開始使用Deepseek-V3.1-Terminus？

DeepSeek 透過多種渠道分發該模型，覆蓋了從業餘愛好者到企業開發者的廣泛使用者群體。

網頁和 App：體驗 Terminus 最簡單的方式是直接透過 DeepSeek 的官方網頁平臺或移動 App。這提供了直觀的介面，可立即使用，無需設定。

API：對於開發者來說，DeepSeek API 是一個不錯的選擇。該 API 與 OpenAI 相容，您可以使用熟悉的 OpenAI SDK 或任何支援 OpenAI API 的第三方軟體。您只需更改基礎 URL 和 API 金鑰即可。DeepSeek 的定價極具競爭力，其輸出代幣比許多高階模型選項便宜得多。

模型	Deepseek-V3.1-Terminus (非思考模式)	Deepseek-V3.1-Terminus (思考模式)
百萬輸入令牌 (快取命中)	$0.07	$0.07
百萬輸入令牌 (快取未命中)	$0.56	$0.56
百萬輸出令牌	$1.68	$1.68

本地執行：如果您希望自行託管模型，可以在 Hugging Face 上獲取模型權重，該模型遵循開源且寬鬆的 MIT 許可證。在本地機器上執行模型需要大量硬體；但是，社羣提供了一些有用的資源和指南，可以最佳化體驗，例如，將 MoE 層解除安裝到 CPU 可以降低 VRAM 的利用率。

本地執行Deepseek-V3.1-Terminus

網頁版應用上手體驗

網頁介面的使用非常簡單。開啟 DeepSeek 併發起聊天。您可以使用“思考”和“非思考”模式來比較回覆的風格和深度。您可以給“思考”模式下達一個複雜的編碼任務，或者讓它瀏覽網頁查詢資訊，隨著它制定計劃並執行任務，您將立即看到智慧體能力的提升。

搜尋智慧體提示詞：

“I need to plan a 7-day trip to Kyoto, Japan, for mid-November. The itinerary should focus on traditional culture, including temples, gardens, and tea ceremonies. Find the best time to see the autumn leaves, a list of three must-visit temples for ‘Momiji’ (autumn leaves), and a highly-rated traditional tea house with English-friendly services. Also, find a well-reviewed ryokan (traditional Japanese inn) in the Gion district. Organize all the information into a clear, day-by-day itinerary.”

響應：

搜尋智慧體提示詞

完整聊天: Deepseek

編碼代理提示詞：

“I need a Python script that scrapes a public list of the top 100 films of all time from a website (you can choose a reliable source like IMDb, Rotten Tomatoes, or a well-known magazine’s list). The script should then save the film titles, release years, and a brief description for each movie into a JSON file. Include error handling for network issues or changes in the website’s structure. Can you generate the full script and explain each step of the process?”

響應：

編碼代理提示詞

完整聊天: Deepseek

DeepSeek-V3.1-Terminus 標誌著所有使用 AI 代理的開發者都取得了重大進展。我使用之前的版本已經有一段時間了，雖然它非常令人印象深刻，但也存在一些令人沮喪的時刻，比如它有時會混合語言，或者在多步驟的編碼任務中迷失方向。使用 Terminus 的體驗讓我感覺開發團隊認真傾聽了我的意見。語言一致性現在非常穩定，而且它能夠毫無問題地進行復雜的網頁搜尋和資訊合成，這真的讓我印象深刻。它不再只是一個強大的聊天模型；它更是複雜現實任務的可靠智慧夥伴。

如何在本地執行DeepSeek-V3-Terminus？

對於擁有更多技術知識的使用者，您可以在本地執行 DeepSeek-V3.1-Terminus，以獲得更強大的功能和更私密的體驗。

下載權重：前往 DeepSeek AI Hugging Face 官方頁面並下載模型權重。完整模型包含 6710 億個引數，需要大量磁碟空間。如果空間有限，您可能需要下載量化版本，例如 GGUF 模型。
使用框架：使用流行的框架（例如 Llama.cpp 或 Ollama）來載入和執行模型。這些框架可以降低在消費級硬體上執行大型模型的複雜性。
針對您的硬體進行最佳化：由於該模型是專家混合模型，您可以將部分層遷移到 CPU 以節省 GPU 視訊記憶體。這可能需要一些實驗才能找到適合您設定的速度和記憶體使用的最佳平衡點。

設定指南

按照以下命令在您的本地環境中設定 DeepSeek 模型。

git clone https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
cd DeepSeek-V3.1-Terminus
pip install -r requirements.txt
python inference/demo.py \
  --input "Implement a minimal Redis clone in Go that supports SET, GET, DEL." \
  --reasoning true \
  --max_tokens 2048

本地環境中設定 DeepSeek 模型

基準測試對比

儘管在純推理基準測試中效能略有提升，但 Terminus 的亮點在於其基於任務的代理效能。該模型在以下基於代理的基準測試中取得了顯著提升：

BrowseComp：從 30.0 大幅提升至 38.5，表明其執行多步驟網頁搜尋的能力有所提升。
SWE Verified：從 66.0 大幅提升至 68.4，尤其是在依賴外部工具的軟體工程任務方面。
Terminus 基準測試：從 31.3 顯著提升至 36.7，表明 Code Agent 在處理命令列式任務方面表現更佳。

我們應該注意到中文 BrowseComp 基準測試中的效能有所下降，這可能表明多語言一致性改進措施有利於英語效能。無論如何，對於任何使用代理工作流和外部工具的開發者來說，Terminus 都提供了顯著的提升。

基準測試對比

Source: DeepSeek

小結

DeepSeek-V3.1-Terminus 的設計目標並非在所有基準測試中都打破紀錄；並非如此，這是一個有針對性的版本，專注於現實世界中實際應用的關鍵：更高的穩定性、可靠性以及卓越的代理功能。DeepSeek 解決了之前的一些不一致之處，並增強了其利用工具的能力，打造了一個卓越的開源模型，其可部署性和實用性前所未有。因此，無論您是試圖構建下一代卓越 AI 助手的開發者，還是僅僅想了解未來發展方向的技術愛好者，Terminus 都值得您再次關注。

DeepSeek 混合專家模型

DeepSeek-V3.1-Terminus評測：更穩定可靠的混合專家模型與實戰能力

文章目录

什麼是DeepSeek-V3.1-Terminus？

Deepseek-V3.1-Terminus的主要特性

如何開始使用Deepseek-V3.1-Terminus？

網頁版應用上手體驗

搜尋智慧體提示詞：

編碼代理提示詞：

如何在本地執行DeepSeek-V3-Terminus？

設定指南

基準測試對比

小結

評論留言

取消回覆

DeepSeek-V3.1-Terminus評測：更穩定可靠的混合專家模型與實戰能力

文章目录

什麼是DeepSeek-V3.1-Terminus？

Deepseek-V3.1-Terminus的主要特性

如何開始使用Deepseek-V3.1-Terminus？

網頁版應用上手體驗

搜尋智慧體提示詞：

編碼代理提示詞：

如何在本地執行DeepSeek-V3-Terminus？

設定指南

基準測試對比

小結

相關文章

評論留言

取消回覆