Claude Opus 4.5:最佳人工智慧編碼模型!至少不少人都這樣認為

Claude Opus 4.5:最佳人工智慧編碼模型!至少不少人都這樣認為

文章目录

  • Claude Opus 4.5是什麼?
  • 主要特性
  • 如何訪問Claude Opus 4.5?
  • Claude Opus 4.5定價
  • Claude Opus 4.5基準測試
  • 安全特性
  • Claude Opus 4.5實戰示例
  • 1. Claude聊天介面中的視覺推理
  • 2. 封閉球體和電子遊戲克隆
  • 小結
  • 常見問題解答

Claude Opus 4.5:最佳人工智慧編碼模型!至少不少人都這樣認為

隨著 Gemini 3 Pro、ChatGPT 5.1 和 SAM3 等模型的相繼問世,Anthropic 在產品釋出方面一直相對低調。但這種情況即將改變。Claude 攜其最新產品 Claude Opus 4.5 強勢迴歸,力圖角逐最佳 AI 編碼模型的寶座。本文將深入探討其編碼能力、實際效能以及獲取方式。

Claude Opus 4.5是什麼?

Claude Opus 4.5 是 Claude 4.5 系列中最智慧的模型,兼具強大的功能和實用的效能。它非常適合複雜的專業任務、專業的軟體工程以及高階智慧體。Opus 一直是該系列的旗艦產品,但由於其高昂的價格,一直未能獲得廣泛認可。而 Claude Opus 4.5 的價格則比之前的 Opus 型號更加親民。

主要特性

以下是 Claude Opus 4.5 的主要特性:

  • 先進的實際編碼能力:Opus 4.5 無需逐步指導即可處理複雜的工程問題。它能夠應對歧義,權衡利弊,並修復早期模型無法解決的問題。
  • 高效的程式碼生成:該模型能夠生成簡潔可靠的程式碼,同時使用比以往版本更少的標記。您可以獲得更精簡、開銷更低的實現,這在快速交付或迭代時至關重要。

     

  • 多語言能力:無論您是在 Python、Java、C++ 還是其他不太常見的語言之間切換,Opus 4.5 都能保持一致性。它在幾乎所有主流語言基準測試中都表現出色,是多語言團隊的可靠選擇。

     

  • 高階規劃和重構:這是它區別於大多數模型的關鍵所在。Opus 可以規劃多程式碼庫重構,解釋變更的必要性,並執行計劃。智慧體工作流編排:該模型專為多步驟、多智慧體協作而設計。一個智慧體可以進行除錯,而另一個智慧體可以更新文件,Opus 則能確保所有內容保持一致。

     

  • 強大的通用智慧:儘管 Opus 4.5 被定義為一個編碼模型,但它在推理、長上下文準確性、數學和視覺理解方面都展現出了顯著的提升。

如何訪問Claude Opus 4.5?

如果您想親自體驗 Opus 4.5,根據您的設定,有以下幾種途徑:

  1. Claude 應用:使用 Claude 應用介面,直接在瀏覽器或桌面應用程式中使用它。這需要付費訂閱該工具。

Claude 應用介面

僅限付費版本

2. 面向開發者的 Claude API:透過 Anthropic API 呼叫 Claude Opus 4.5 模型:Claude API 文件

3. Claude Code:在桌面應用程式中訪問 Opus 4.5 以供編碼代理使用:Claude Code

訪問 Claude Opus 4.5 的最佳方式是透過 Windsurf,該模型可用於 Sonnet 模型的積分要求。它比 Opus 4.1 的代幣價格便宜 10 倍,這是一個很大的優勢。

Claude Opus 4.5定價

要透過網頁介面訪問 Claude Opus 4.5,您需要訂閱 Pro 版本,費用為 20 美元。如果您選擇透過 API 訪問,則 Opus 4.5 的代幣價格如下:

Claude Opus 4.5定價

Source: Claude

Claude Opus 4.5 的價格顯然比 Anthropic Opus 系列的任何先前版本都要便宜。但我們很快就會遇到一個很大的問題:它的功能有限!

Claude Opus 4.5基準測試

Claude 一直以來都以強調其模型的編碼和推理能力而聞名,並在展示基準測試結果時著重強調這一點。考慮到它自稱是最佳編碼 AI,我想這在這方面也說得通。

SWE-bench 驗證:Opus 4.5 在此真實世界程式碼挑戰集(n=500)上的得分為 80.9%,而 Sonnet 4.5 的得分為 77.2%。這明顯優於其他前沿模型(GPT-5.1 Codex-Max 的得分為 77.9%)。

SWE-bench 驗證

Source: Anthropic

多語言編碼:在 SWE-bench 多語言測試中,Opus 4.5 在 8 種語言中的 7 種語言中領先,在 Java 和 Python 等語言中,得分通常比 Sonnet 4.5 高出約 10-15%。

多語言編碼

Source: Anthropic

Aider Polyglot:在解決多種語言的複雜編碼問題方面,Opus 4.5 比 Sonnet 4.5 高出 10.6%。

Aider Polyglot

Source: Anthropic

自動售貨機(長期規劃):在長期規劃任務中,Opus 4.5 的獎勵比 Sonnet 4.5 高出 29%,展現出更出色的目標導向行為。

自動售貨機(長期規劃)

Source: Anthropic

Opus 4.5 在軟體工程任務中明顯領先於競爭對手,甚至優於其他 Anthropic 模型。以下圖表展示了它在各種基準測試中與同類產品相比的表現:

Opus 4.5 在軟體工程任務中明顯領先於競爭對手

Source: Anthropic

Anthropic 對軟體工程和智慧體任務的過度依賴在大多數情況下可能並不受歡迎。但它為 AI 編碼帶來的價值不容忽視。

安全特性

Claude Opus 4.5 的獨特之處不僅在於其卓越的程式碼質量,更在於其在關鍵時刻的可靠性。Anthropic 的內部評估表明,Opus 4.5 是他們迄今為止最穩健的模型,也可能是目前最先進的模型。

安全特性

Source: Anthropic

它顯著降低了“令人擔憂的行為”,例如響應使用者風險意圖或執行未經使用者請求的操作。在應對提示注入(一種試圖透過隱藏指令劫持模型的欺騙性攻擊)方面,Opus 4.5 的表現更加出色。

響應使用者風險意圖或執行未經使用者請求的操作

Source: Anthropic

安全性並非事後考慮,而是其核心優勢和突出特性,並將為後續更多功能的開發鋪平道路。

Claude Opus 4.5實戰示例

如果關鍵時刻無法展現實力,那麼之前的討論都將毫無意義。我將測試模型在以下任務中的表現:

  1. Claude 聊天介面中的視覺推理
  2. 包含球體和電子遊戲克隆

1. Claude聊天介面中的視覺推理

在這個任務中,我們將探索 Claude Opus 4.5 如何利用其聊天介面進行影像推理。我們將提供以下影像作為輸入:

Claude聊天介面中的視覺推理

Source: Arxiv

What’s happening in this image?

響應:

Claude聊天介面中的視覺推理響應

然後,我進一步追問了以下問題,以補充其之前的回答:

What kind of interpretations you can made through the diagram?”

Claude聊天介面中的視覺推理響應-1 Claude聊天介面中的視覺推理響應-2

我並不滿意。為了進一步測試模型對問題的理解,我提出了以下後續問題:

If this arrow was reversed, how would the meaning change?

響應:

進一步測試模型對問題的理解-1進一步測試模型對問題的理解

該模型在反事實任務中表現出色。大多數模型無法僅憑箭頭方向的改變就理解上下文的差異。該模型不僅能夠意識到這一點,還能從中推斷出更深層的含義。其常規解釋還有待改進。

2. 封閉球體和電子遊戲克隆

問題就出在這裡:限制!即使我付費訂閱了 Claude,也無法讓它生成需要連續聊天超過 3 次的回覆。因此,使用網頁介面處理複雜的、龐大的程式碼會非常困難。

於是,我開始在網上尋找其他能夠長時間執行該模型的使用者。我找到了 X 上分享的影片片段

超級馬里奧的那個影片更加令人印象深刻。建立這樣的……瞬間完成線性應用克隆值得稱讚。作為長期關注線性模型的人,我意識到模型完成此類任務有多麼困難。我曾嘗試使用 Gemini 3 Pro 和 ChatGPT 5.1 完成類似任務,但結果根本無法與之相提並論。

兩者的表現都令人印象深刻。任何嘗試過建立包含球的模擬程式的人都知道,模型完成如此簡單的任務有多麼困難。Claude Opus 4.5 卻能出色地完成這項任務,確保所有球都不會出界。

小結

Claude Opus 4.5 正如其公司所宣傳的那樣:它是最佳的編碼模型。它為 AI 編碼樹立了新的標杆,能夠處理從規劃到簡潔實現的所有環節,並在執行更長時間的任務時保持一致性。其他模型在處理複雜任務時可能會失去連貫性或引入錯誤,而 Opus 4.5 則始終能夠生成實用且符合開發者需求的程式碼。

它並非完美無缺。它有時會主動提出解決方案,而不是僅僅指出缺少的工具;而且作為編輯器,它的操作也比競爭對手的產品略顯繁瑣。儘管如此,它在軟體開發方面的優勢依然顯而易見。在近期推出的眾多模型中,它憑藉強大的編碼能力脫穎而出。如果您重視使用人工智慧構建真正的產品,那麼 Opus 4.5 是目前最強大的選擇。它很可能成為未來程式設計師的首選。

常見問題解答

問題 1:Claude Opus 4.5 與之前的 Opus 型號有何不同?

答:它在實際工程任務中更加智慧,代幣成本更低,並且更容易在應用程式、API 和雲平臺上訪問。

問題 2:我需要付費才能使用 Opus 4.5 嗎?

答:是的,使用 Claude 主應用程式需要付費,但您也可以根據您的設定,透過 AWS Bedrock 或 Windsurf 等平臺訪問它。

問題 3:Claude Opus 4.5 的編碼能力真的比 GPT-5.1 和 Gemini 3 更強嗎?優點?

答:初步結果表明,在複雜除錯和全棧任務方面表現良好,但本文中的實際測試將給出最終結論。

評論留言