Grok 4震撼发布：马斯克最新多模态大模型全面评测

埃隆·马斯克和他的 Grok 团队携其最新、最强的模型 Grok 4 强势回归。就在三个月前，这支专家团队刚刚发布了 Grok 3，该模型至今仍与 OpenAI、Gemini 和 Anthropic 等巨头竞争。但凭借 Grok 4，埃隆·马斯克正在与这些公司展开激烈竞争。Grok 4 拥有超人级别的思维和推理能力。凭借其丰富的工具和智能体，它能够更好地理解个人和职业世界。在本篇博文中，我们将全面探索 Grok 4：它的特性、功能、基准测试，最后我们将对其进行测试。

它比几乎所有学科的研究生都聪明——埃隆·马斯克。

什么是Grok 4？

Grok 4 是埃隆·马斯克的公司 x.ai 最新推出的多模态大型语言模型 (LLM)。它的训练数据比 Grok 2（x.ai 的首个公开模型）多 100 倍，强化学习计算能力比任何其他现有模型都高 10 倍。Grok 4 拥有 256K 上下文窗口、实时数据搜索、高级语音功能、智能代理能力以及与人类行为高度相似的智能。

Grok 4 有两个版本：

普通版：这是 Grok 4 LLM 的单智能体版本。它具有智能代理行为，即由一个智能代理来解决您的问题。该模型适用于涉及语言、搜索、编码等日常任务。它包含在 x.ai 提供的 Super Grok 套餐中，也可通过 API 为开发者提供。
Grok 4 Heavy：这是 Grok 4 的多智能体版本。在提示下，多个智能代理会协作、比较结果并生成最佳结果。它是复杂推理、深度分析和研究的理想选择。它仅在 x.ai 的 Super Grok Heavy 套餐中提供。

主要特点

学术奇才：Grok 4 在人类终极考试 (HLE) 基准测试中表现出色。在涵盖数学、物理、化学、人文和计算机科学的 2,500 道题中，Grok 4 在一半题目中获得了两位数的得分！目前大多数模型的得分仅为个位数，这表明 Grok 4 可以解决跨学科的博士级问题。
工具使用：Grok 4 已进行原生工具使用训练，其性能优于 Grok 3 的研究工具。凭借强大的扩展能力和计算能力，它甚至可以处理最棘手的基于文本的问题。
代理化设计：Grok 4 模型具有代理化设计。通过在后台运行单个和多个代理，这些模型可以快速执行多项任务。
增强的语音功能：Grok 4 模型配备了先进的语音模式，与 Open AI 和 Gemini 的其他模型相比，其语音听起来更加个性化和平静。它配备了一个新声音“Eve”——一个英国说话者，可以快速从唱歌切换到低语，模仿类似人类的情绪。此外，与之前的版本相比，最新语音模式的延迟减少了一半。
它可以经营企业：Grok 4 模型可以像人类一样推理，并做出果断的决策、制定战略和计划，使其能够经营企业。事实上，它们也可能帮助你赚取一些利润。

在多模态能力方面，尤其是图像分析和生成，Grok 4 模型目前的表现不如 o3、Gemini 2.4 Pro、Claude 4 等顶级模型。尽管这种情况可能会在未来几天（或几周）内显着改善。

可用性

Grok套餐方案

Source: X

Super Grok：包含 Grok 4 和 Grok 3。配备 128K 令牌窗口、语音和视觉功能。价格为每月 30 美元或每年 300 美元。
Super Grok Heavy：包含 Grok 4 Heavy 和 Grok 4。提供增强的上下文窗口和新功能的抢先体验。此高级套餐价格为每月 300 美元或每年 3,000 美元，与 OpenAI 和 Google 的高级套餐相当。

如何访问Grok 4？

要在聊天中使用 Grok 4：

前往 Grok。
登录您的 Super Grok 帐户。
在屏幕中间的聊天框中，点击聊天框角落的小模型下拉菜单。
选择“Grok 4”模型

Grok 4对话窗口

Source: Grok

完成后，您就可以开始了。

要通过 API 访问 Grok 4：

前往 https://x.ai/api 并点击“API Console Login”。
点击“API Keys”。
点击“Create API key”，然后为您的 API 密钥命名，并点击“Save”以生成您的 Grok API 密钥。
现在，要使用 API 端点访问 Grok 4，请访问 https://docs.x.ai/docs/models/grok-4-0709 并使用以下代码片段进行访问。

from xai_sdk import Client
from xai_sdk.chat import user, system
client = Client(
    api_host="api.x.ai",
    api_key="<YOUR_XAI_API_KEY_HERE>"
)
chat = client.chat.create(model='grok-4-0709', temperature=0)
chat.append(system("You are a PhD-level mathematician."))
chat.append(user("What is 2 + 2?"))
response = chat.sample()
print(response.content)

Grok 4实战

现在我们已经了解了 Grok 4 的全部内容，是时候看看它是否真的像宣传的那样强大了。为此，我们将在以下任务上测试 Grok 4：

博士级问题，测试其推理能力
多步骤研究，测试其代理能力
结合上下文进行编码，测试其实际应用能力

任务 1：解决博士级问题

解决博士级问题

Source:Yale

结果：

分析：

Grok 4 逐步解决问题，按顺序解答每个问题。它正确地解读了提示，推理了解决方案，甚至在被问到时生成了图表代码。可视化结果准确，与解释一致。

任务 2：进行多步骤研究

提示词： “Tell me about Analytics Vidhya’s latest post on X and find the latest blog on their website – summarise information on them in 5 lines each.”

结果：

分析：

这项任务的表现比我想象的要好。任务本身并不难，但我看到很多模型在日期方面难以准确获取最新信息。Grok 4 只花了几秒钟就搞定了。它浏览了网站和 Twitter 页面，找到了最新信息，然后推理出来，为每个帖子提供了 5 行具体的代码。

任务 3：结合上下文进行编码

提示词： “Merge all these PDFs and create a single JSON file.”

Files

结果：

结合上下文进行编码

分析

一开始还不错，我列出了几个文件的内容，然后就开始出现幻觉。结果里只有一串 #。这很令人失望。

提示词2：“Convert the following code into Python and React”

Code File

结果：

分析：

Grok 4 快速高效，它很快就生成了 Python 代码，并且能够理解提示中出现的“react”一词。我期待着看到我应用前端的代码。然后，它还显示了每个部分的代码，方便我在需要时轻松复制所需的部分。

Grok 4基准测试

Grok 4 几乎在我们通常测试的所有基准测试中都取得了优异的成绩。以下是摘要：

Grok 4基准测试

Source: X

GPQA（研究生物理试题库）：该基准测试测试专家级的科学知识。在此基准测试中，Grok 4 的准确率达到 87-88%，领先于 GPT-4o 和 Claude 3.5 Sonnet 等竞争对手。
AIME（美国数学邀请赛）2025：该基准测试比较数学能力。Grok 4 的准确率达到 95%，一些报告甚至声称准确率高达 100%。这超越了之前的 SOTA 模型。
SWE-Bench（软件工程基准测试）：它评估编码和实际软件问题解决能力（Grok 4 代码变体）。分数范围为 72-75%，显著领先于 o3-mini（高）和 Claude 3.5 Sonnet。
其他数学和推理基准：Grok 4 在美国数学奥林匹克竞赛、哈佛-麻省理工学院数学锦标赛以及类似测试中均表现出色，并显著超越之前的 SOTA。它在一般推理和跨领域博士级任务中也表现出色。

这些是测试任何最新 LLM 的常用基准。Grok 4 还提供了两个新基准的评分卡：ARC-AGI 和 Vending Bench。

ARC-AGI

该基准测试旨在检验模型距离实现 AGI（通用人工智能）的距离。测试通过对模型在不同的 ARC 类任务（一系列具有挑战性的谜题）上的表现进行评分来实现。

ARC-AGI

Source: X

Grok 4 占据榜首，突破了 10% 的门槛，这意味着该模型已迈出了通用推理的第一步。紧随其后的是 Claude Opus 4 模型，然后是 o3（高）、o4-mini（高）以及其他模型！Grok 4 似乎比其他同类模型更接近 AGI。

Vending Bench

该基准测试了代理型 AI 系统，以衡量这些代理与真实电商网站交互以完成复杂任务的能力。它旨在对现实世界的决策、规划和 UI 交互进行压力测试。

Grok 4 在这方面也表现出色，击败了一些人类模型、Claude 4、Opus、Gemini 2.5 Pro 和 o3。

Vending Bench

Source: X

事实上，Grok 4 曾被测试运行一台真正的自动售货机，并因此获得了巨额利润。几天前，Anthropic 也发布了类似的关于 Claude 运行自动售货机的案例，其中提到机器出现了亏损！

Grok 4的应用

Grok 4 拥有一系列强大的功能和性能基准，因此它在以下领域非常有用：

实时社交媒体互动：它作为聊天机器人直接集成到 X（以前称为 Twitter）中。它可以用来生成表情包、帖子、投票、摘要或进行情绪分析。
高级研究：它可以解决博士级别的问题，这表明它可以真正为数学、物理和工程领域的高级研究做出贡献。
商业规划：它可以帮助制定战略并进行高级商业分析，从而帮助您获得切实可行的洞察。
编码与写作：Grok 4 拥有出色的 SWE 基准测试和代理功能，因此它可以承担许多编码任务并表现出色。

Grok 3 vs Grok 4

尽管 Grok 3 因其种族主义言论而备受关注，但 Grok 4 的开发团队希望做的不仅仅是控制损害。Grok 4 从一开始就集成了工具使用功能，Grok 团队计划将其升级到“商业级”功能，帮助您解决实际的现实问题。除此之外，我们期待 Grok 4 很快掌握视频和图像的分析和生成功能，让我们更接近体验可玩的 AI 生成的视频游戏和完全 AI 生成的节目。

小结

Grok 4 是否意义重大？当然。在一个日益饱和的市场中，它如同一股清流，比其前代产品有了真正的改进。随着实际用例的不断涌现，它似乎有望帮助解决许多日常问题。标准版和重型版都具备代理性，速度快，推理能力显著提升。虽然有人认为它是为通用人工智能 (AGI) 打造的，但我相信它仍有发展的空间和时间。Grok 3 最初也曾充满希望，但后来偏离了正轨。新版本只是一个开始，我们还需要进行大量测试才能真正了解它的潜力。

Grok 4 马斯克

Grok 4震撼发布：马斯克最新多模态大模型全面评测

文章目录

什么是Grok 4？

主要特点

可用性

如何访问Grok 4？