Anthropic最新发布的Claude 4到底有多强?

Anthropic最新发布的Claude 4到底有多强?

如果说目前有哪个领域让世界瞠目结舌,那非生成式人工智能莫属。每天都有新的 LLM 傲视群雄,这次轮到 Claude 了!Anthropic 刚刚发布了 Anthropic Claude 4 型号系列。此次发布包括两个高级型号:Claude Opus 4 和 Claude Sonnet 4。这些模型是现有所有 LLM 的升级版,将与谷歌和 OpenAI 的顶级模型展开激烈竞争。Claude 4 模型在编码和复杂推理任务中均表现出色。除此之外,Claude 4 模型还具有扩展思维的人工智能模式,使它们在所有可能的方面都优于其前辈。在本文中,我们将探讨 Claude 4 的两种新模型:Opus 和 Sonnet,以及它们的功能、性能和应用。

什么是Claude Opus 4和Sonnet 4模型?

Anthropic 的 Claude 4 型号系列包括两个新一代 LLM:Opus 和 Sonnet。这两款模型采用混合思维,具有卓越的编码、高级推理和人工智能代理构建能力。根据查询内容的不同,这两种型号可以从简单任务的闪电响应速度切换到复杂任务的深入推理的扩展思维。

什么是Claude Opus 4?

该模型是作为领先的人工智能编码模型提出的。Claude Opus 4 能有效处理时间长、要求高的任务。它能在多个步骤中保持专注。报告显示,Claude Opus 4 在 SWE-bench 等基准测试中以 72.5% 的成绩遥遥领先。它在 Terminal-bench 中的得分也高达 43.2%。在复杂推理任务方面,这些分数超过了竞争对手,包括 GPT-4.1 和 谷歌的 Gemini 2.5 Pro。该模型可在涉及多个步骤的复杂任务中提供持续性能,并能不受阻碍地运行数小时,以提供更高的性能。

什么是Claude Sonnet 4

该模型是 Sonnet 3.7 的升级版。它在性能和成本效益之间实现了良好的平衡。Sonnet 4 具有强大的编码和推理能力。它在 SWE-bench 上获得了 72.7% 的分数。该模型设计用于一般用途,精度更高。它还受益于扩展思维的人工智能原理。该模型在各种用例的性能和效率之间实现了更大的平衡,并为更好地执行代码带来了更好的可控性。虽然该模型在性能上低于 Opus 4,但它兼顾了能力和实用性。

Claude 4模型Opus 4和Sonnet 4的主要特点

Anthropic Claude 4 型号具有几个重要的增强功能。这些功能提高了它们的实用性和性能。

  1. 使用工具扩展思维(测试版):两款模型现在都具有测试版功能。这使它们能够使用外部工具,如网络搜索。这种工具的使用发生在长时间的推理过程中。扩展思维人工智能允许模型在推理和使用工具之间切换。这一过程有助于提高其反应的准确性。这是处理复杂推理任务的一个关键进展。
  2. 改进的内存处理:当模型可以访问本地文件时,它们的内存会大大提高。它们可以提取并保存重要事实。这有助于保持对话的连续性。这还能让它们随着时间的推移积累知识。这一改进对 Claude Opus 4 及其应用程序至关重要。
  3. Claude Code的可用性:Claude Code 是 Anthropic 的命令行交互工具。它现在已普遍可用。该工具支持使用 GitHub Actions 在后台执行任务。它还能与 VS Code 和 JetBrains 等开发环境连接。这种连接使结对编程更加顺畅,增强了这种人工智能编码模式的实用性。
  4. 新的 API 功能:Anthropic 还发布了四个新的 API 功能。其中包括代码执行工具和 MCP 连接器。此外,还提供文件 API 和长达一小时的提示缓存。这些工具增强了开发人员的能力。他们可以使用 Anthropic Claude 4 构建更强大的人工智能代理。

Claude 4模型Opus和Sonnet:实际操作

现在,让我们试用一下 Claude 4,看看它在实际应用中的表现如何。在本节中,我们将探讨 Claude 4 模型可显著提高开发和解决问题效率的三个核心领域:

任务 1:设计一个多模式密室逃脱谜题

提示词:

“Imagine you’re tasked with designing a virtual escape room that integrates various sensory elements—textual clues, auditory hints, and visual puzzles. The theme is ‘Time Traveler’s Dilemma,’ where players must navigate through different historical eras to prevent a temporal catastrophe. Outline the sequence of challenges, the type of puzzles in each era, and how they interconnect to form a cohesive narrative. Ensure the puzzles require logical reasoning, pattern recognition, and historical knowledge.”

输出:

设计一个多模式密室逃脱谜题 设计一个多模式密室逃脱谜题

Claude 4 创作了一个令人印象深刻的故事和一条可玩的时间线。这说明了 Claude 4 在创意方面的出色表现。其成果非常吸引人,同时也很有吸引力。

任务 2:为实时语言翻译设计一种新算法

提示:

“Develop an algorithm that enables real-time translation of sign language into spoken words using wearable technology. Consider the challenges of gesture recognition, context understanding, and speech synthesis. Provide a high-level overview of the system architecture, the machine learning models involved, and how the system ensures accuracy and latency requirements are met.”

为实时语言翻译设计一种新算法

输出:

在这里,我们看到了一个工件错误,也许是生成的 React 代码中存在语法错误。但从解释中,我们可以看到 Claude 4 已经彻底添加了每个功能,并提供了适当的理由。

任务 3:复杂的物理问题

提示词

“Using the Schwarzschild solution of general relativity, derive the relativistic perihelion precession Δφ of a test particle in a bound orbit around a central mass M. Your derivation should:

  1. Start from the Schwarzschild metric and write down the effective potential for radial motion.
  2. Obtain the equation for the orbit u(φ)=1/r(φ) and perform a perturbative expansion to first order in GM/(c²a(1–e²)),
  3. Show that the extra advance per orbit is

Δϕ  =  6π G Ma (1−e2) c2 , \Delta\phi \;=\; \frac{6\pi\,G\,M}{a\,(1-e^2)\,c^2}\,,Δϕ=a(1−e2)c26πGM​,

  1. Finally, compute the numerical value of Δφ per century for Mercury, using
  • M⊙=1.9885×1030 kgM_{\odot}=1.9885\times10^{30}\,\mathrm{kg}M⊙​=1.9885×1030kg
  • a=5.79×1010 ma=5.79\times10^{10}\,\mathrm{m}a=5.79×1010m
  • e=0.2056e=0.2056e=0.2056
  • Mercury’s orbital period ≈ 88 days.

Present your work step by step, then state the final numeric result in arcseconds per century at the very end.”

复杂的物理问题

输出:

实际答案:42.7′′(弧秒/世纪)

Claude 4 答案:43.1弧秒/世纪。

我们可以看到,Claude 4 的推理能力值得称赞;它生成了一个有详细解释的逐步解题方案。它的最终答案几乎接近实际答案,但所采用的方法完全没有问题。

Claude 4 模型:性能评估

Claude Opus 4 和 Sonnet 4 性能卓越。这些数据彰显了它们的实力。

  • Claude Opus 4:该模型在 SWE-bench 中的得分率为 72.5%。它在 Terminal-bench 中也取得了 43.2% 的成绩。这些结果显示了它在高要求编码任务和复杂推理任务中的优势。作为人工智能编码模型,Claude Opus 4 树立了很高的标准。
  • Claude Sonnet 4:该模型在 SWE 测试获得了 72.7% 的分数。这表明它具有处理一般编码的能力。它在高效推理任务方面也表现出色。该模型得益于与扩展思维人工智能类似的方法

SWE 测试

Claude 4

显然,Claude 4 模型在 SWE-bench Verified(真实软件工程任务的性能基准)上处于领先地位。

真实软件工程任务的性能基准

Claude 4

Claude 4 模型在各种任务中的表现均优于 OpenAI 的 GPT-4.1 和 Gemini 2.5 Pro,并在编码、推理、多模态能力和代理任务方面表现出色。

访问Claude 4 和定价信息

要访问 Claude Sonnet 4,只需登录 https://claude.ai/。Sonnet 4 现已上市。

人类学 Claude 4 模型,包括 Claude Opus 4 和 Sonnet 4,均可访问。它们可通过多个平台获得。

  • Anthropic API
  • Amazon Bedrock
  • Google Cloud’s Vertex AI

定价结构与之前的模型相同。

  • Opus 4:每百万输入 token 的成本为 15 美元。输出 token 成本为每百万枚 75 美元。
  • Sonnet 4:每百万个输入 token 的成本为 3 美元。输出 token 成本为每百万枚 15 美元。

免费用户可以访问 Claude Sonnet 4。扩展功能需要 Pro、Max、Team 或 Enterprise 计划。这种结构使高级人工智能编码模型更容易使用。

行业使用和实际应用

一些领先的公司已经在使用 Anthropic Claude 4 模型。他们正在将这些模型整合到自己的业务中。

  • GitHub:该公司计划使用 Claude Sonnet 4。它将成为 GitHub Copilot 中新编码代理的基础模型。这显示了该公司对其人工智能编码模型能力的信心。
  • Replit:他们报告称 Claude Opus 4 的精确度更高。Replit 指出在跨多个文件的复杂变更方面取得了重大进展。
  • Rakuten:这家公司测试了 Claude Opus 4 的能力。它使用了一个具有挑战性的开源重构模型。该模型独立运行了 7 个小时,性能稳定。
  • Sourcegraph:他们观察到 Sonnet 4 能更长时间地完成任务。它能更深入地理解问题。它还提供了更优雅的代码质量,对复杂的推理任务非常有用。

这些采用表明了 Anthropic Claude 4 的实用价值。

竞争格局一览

OpenAI 的 GPT-4.1 系列也在人工智能领域取得了进展。它侧重于智能、推理和效率。然而,Anthropic 的 Anthropic Claude 4 模型树立了新的基准。Claude Opus 4 尤其擅长编码和复杂的推理任务。Claude 4 结合了扩展思维人工智能、工具使用和更好的记忆力,是一个强有力的替代选择。

小结

Anthropic 的 Claude 4 模型是人工智能领域的一大进步。它在编码和复杂推理任务方面表现出了特别的优势。扩展的人工智能思维、工具集成和改进的内存等功能都非常重要。Claude 4 模型,尤其是 Claude Opus 4,将重塑人工智能应用。随着人工智能的发展,Claude 4 将成为一个强大的工具。它有利于寻求先进人工智能解决方案的开发人员和组织。这种人工智能编码模型提供了新的可能性。

评论留言