Anthropic发布Claude 3人工智能模型以对抗GPT-4和Gemini 1.0 Ultra

Anthropic发布Claude 3人工智能模型

3月初，又一个人工智能模型超越了 GPT-4，至少在基准测试中是如此。这一次是 Anthropic，由前 OpenAI 成员 Daniela 和 Dario Amodei 兄妹成立的公司。该公司推出了 Claude 3 系列模型，包括 Opus（最大、性能最强）、Sonnet（中型）和 Haiku（最小）。Anthropic 称，Claude 3 Opus 模型在所有常用基准测试中均优于 GPT-4 和 Gemini 1.0 Ultra。

Claude 3 基准测试

Anthropic 在 MMLU、GPQA、GSM8K、MATH、HumanEval、HellaSwag 等流行基准测试了所有三种模型。在 MMLU 中，Claude 3 Opus 的得分是 86.8%，而 GPT-4 的报告得分是 86.4%。Gemini 1.0 Ultra 在同样的 5 次提示技术中获得了 83.7% 的分数。

Claude 3 基准测试

图片来源：Anthropic

在测试编码能力的 HumanEval 基准测试中，最大的 Opus 模型得分 84.9%，远高于 GPT-4 的 67% 和 Gemini 1.0 Ultra 的 74.4%。Clade 3 Opus 模型甚至在 HellaSwag 测试中击败了 GPT-4，但略有差距。它的得分率为 95.4%，而 GPT-4 为 95.3%，Gemini 1.0 Ultra 为 87.8%。

Claude 3 性能

总的来说，最大的 Claude 3 Opus 模型看起来很有前途，后续肯定会将它与 GPT-4、Gemini 1.5 Pro 和 Mistral Large 进行对比测试，敬请关注。除此以外，Anthropic 还表示，这三个模型在分析和预测、细微内容创建、代码生成以及西班牙语、日语和法语等国际语言的流畅性方面都有很强的能力。

Claude 3 性能

图片来源：Anthropic

Claude 3 模型也具有视觉功能，但 Anthropic 并未将其作为多模态模型进行营销。Anthropic 表示，Claude 3 的视觉功能可以帮助企业客户处理图表、图形和技术图表。在基准测试中，它的表现优于 GPT-4V，但略逊于 Gemini 1.0 Ultra。

200K 上下文长度

在上下文长度方面，Anthropic 表示所有三种型号最初都将提供 20 万个 token 的上下文窗口，不得不说这是相当大的。此外，该公司还表示，Claude 3 系列模型可以处理 100 多万个 token，但这一功能只提供给特定客户。

200K 上下文长度

图片来源：Anthropic

在超过 20 万个词条的 “干草堆中的针”（Needle In A Haystack，NIAH）测试中，Opus 模型表现出色，检索准确率超过 99%，与 Gemini 1.5 Pro 一样。
Claude 一直是长语境检索的最佳人工智能模型之一，而 Claude 3 的性能有了显著提高。

性能和价格

在性能方面，Anthropic 表示 Claude 3 模型速度相当快，最大的 Opus 模型与 Claude 2 和 2.1 性能相同，但智能性更好。中型的 Sonnet 模型比 Claude 2 和 2.1 快近 2 倍。除此之外，Anthropic 还提到 Claude 3 模型拒绝应答的可能性大大降低，而这在早期模型中是个问题。

你可以通过订阅 Claude Pro 开始使用模型 Opus，税后价格为 23.60 美元。中型的 Claude 3 Sonnet 已经部署在免费版的 claude.ai 上。最后，开发人员可以立即访问 Opus 和 Sonnet 模型的 API。

性能和价格

图片来源：Anthropic

至于 API 的定价，Claude 3 Opus 200K 上下文窗口的价格为每百万 token（输入）15 美元，每百万 token（输出）75 美元。与 GPT-4 Turbo（10 美元输入/30 美元输出，128K 上下文）相比，该定价显得相当昂贵。

不过，您对 Anthropic 发布的新系列模型，尤其是 Opus 模型有何看法？请在下面的评论区告诉我们。

Anthropic发布Claude 3人工智能模型以对抗GPT-4和Gemini 1.0 Ultra

文章目录

Claude 3 基准测试

Claude 3 性能

200K 上下文长度

性能和价格

评论留言

取消回复

Anthropic发布Claude 3人工智能模型以对抗GPT-4和Gemini 1.0 Ultra

文章目录

Claude 3 基准测试

Claude 3 性能

200K 上下文长度

性能和价格

相关文章

评论留言

取消回复