Grok 4震撼发布:马斯克最新多模态大模型全面评测

Grok 4震撼发布:马斯克最新多模态大模型全面评测

埃隆·马斯克和他的 Grok 团队携其最新、最强的模型 Grok 4 强势回归。就在三个月前,这支专家团队刚刚发布了 Grok 3,该模型至今仍与 OpenAI、Gemini 和 Anthropic 等巨头竞争。但凭借 Grok 4,埃隆·马斯克正在与这些公司展开激烈竞争。Grok 4 拥有超人级别的思维和推理能力。凭借其丰富的工具和智能体,它能够更好地理解个人和职业世界。在本篇博文中,我们将全面探索 Grok 4:它的特性、功能、基准测试,最后我们将对其进行测试。

它比几乎所有学科的研究生都聪明——埃隆·马斯克。

什么是Grok 4?

Grok 4 是埃隆·马斯克的公司 x.ai 最新推出的多模态大型语言模型 (LLM)。它的训练数据比 Grok 2(x.ai 的首个公开模型)多 100 倍,强化学习计算能力比任何其他现有模型都高 10 倍。Grok 4 拥有 256K 上下文窗口、实时数据搜索、高级语音功能、智能代理能力以及与人类行为高度相似的智能。

Grok 4 有两个版本:

  • 普通版:这是 Grok 4 LLM 的单智能体版本。它具有智能代理行为,即由一个智能代理来解决您的问题。该模型适用于涉及语言、搜索、编码等日常任务。它包含在 x.ai 提供的 Super Grok 套餐中,也可通过 API 为开发者提供。
  • Grok 4 Heavy:这是 Grok 4 的多智能体版本。在提示下,多个智能代理会协作、比较结果并生成最佳结果。它是复杂推理、深度分析和研究的理想选择。它仅在 x.ai 的 Super Grok Heavy 套餐中提供。

主要特点

  • 学术奇才:Grok 4 在人类终极考试 (HLE) 基准测试中表现出色。在涵盖数学、物理、化学、人文和计算机科学的 2,500 道题中,Grok 4 在一半题目中获得了两位数的得分!目前大多数模型的得分仅为个位数,这表明 Grok 4 可以解决跨学科的博士级问题。
  • 工具使用:Grok 4 已进行原生工具使用训练,其性能优于 Grok 3 的研究工具。凭借强大的扩展能力和计算能力,它甚至可以处理最棘手的基于文本的问题。
  • 代理化设计:Grok 4 模型具有代理化设计。通过在后台运行单个和多个代理,这些模型可以快速执行多项任务。
  • 增强的语音功能:Grok 4 模型配备了先进的语音模式,与 Open AI 和 Gemini 的其他模型相比,其语音听起来更加个性化和平静。它配备了一个新声音“Eve”——一个英国说话者,可以快速从唱歌切换到低语,模仿类似人类的情绪。此外,与之前的版本相比,最新语音模式的延迟减少了一半。
  • 它可以经营企业:Grok 4 模型可以像人类一样推理,并做出果断的决策、制定战略和计划,使其能够经营企业。事实上,它们也可能帮助你赚取一些利润。

在多模态能力方面,尤其是图像分析和生成,Grok 4 模型目前的表现不如 o3、Gemini 2.4 Pro、Claude 4 等顶级模型。尽管这种情况可能会在未来几天(或几周)内显着改善。

可用性

Grok套餐方案

Source: X

  • Super Grok:包含 Grok 4 和 Grok 3。配备 128K 令牌窗口、语音和视觉功能。价格为每月 30 美元或每年 300 美元。
  • Super Grok Heavy:包含 Grok 4 Heavy 和 Grok 4。提供增强的上下文窗口和新功能的抢先体验。此高级套餐价格为每月 300 美元或每年 3,000 美元,与 OpenAI 和 Google 的高级套餐相当。

如何访问Grok 4?

要在聊天中使用 Grok 4:

  1. 前往 Grok
  2. 登录您的 Super Grok 帐户。
  3. 在屏幕中间的聊天框中,点击聊天框角落的小模型下拉菜单。
  4. 选择“Grok 4”模型

Grok 4对话窗口

Source: Grok

  1. 完成后,您就可以开始了。

要通过 API 访问 Grok 4:

  1. 前往 https://x.ai/api 并点击“API Console Login”。
  2. 点击“API Keys”。
  3. 点击“Create API key”,然后为您的 API 密钥命名,并点击“Save”以生成您的 Grok API 密钥。
  4. 现在,要使用 API 端点访问 Grok 4,请访问 https://docs.x.ai/docs/models/grok-4-0709 并使用以下代码片段进行访问。
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
from xai_sdk import Client
from xai_sdk.chat import user, system
client = Client(
api_host="api.x.ai",
api_key="<YOUR_XAI_API_KEY_HERE>"
)
chat = client.chat.create(model='grok-4-0709', temperature=0)
chat.append(system("You are a PhD-level mathematician."))
chat.append(user("What is 2 + 2?"))
response = chat.sample()
print(response.content)
from xai_sdk import Client from xai_sdk.chat import user, system client = Client( api_host="api.x.ai", api_key="<YOUR_XAI_API_KEY_HERE>" ) chat = client.chat.create(model='grok-4-0709', temperature=0) chat.append(system("You are a PhD-level mathematician.")) chat.append(user("What is 2 + 2?")) response = chat.sample() print(response.content)
from xai_sdk import Client
from xai_sdk.chat import user, system
client = Client(
    api_host="api.x.ai",
    api_key="<YOUR_XAI_API_KEY_HERE>"
)
chat = client.chat.create(model='grok-4-0709', temperature=0)
chat.append(system("You are a PhD-level mathematician."))
chat.append(user("What is 2 + 2?"))
response = chat.sample()
print(response.content)

Grok 4实战

现在我们已经了解了 Grok 4 的全部内容,是时候看看它是否真的像宣传的那样强大了。为此,我们将在以下任务上测试 Grok 4:

  1. 博士级问题,测试其推理能力
  2. 多步骤研究,测试其代理能力
  3. 结合上下文进行编码,测试其实际应用能力

任务 1:解决博士级问题

解决博士级问题

Source:Yale 

结果:

分析:

Grok 4 逐步解决问题,按顺序解答每个问题。它正确地解读了提示,推理了解决方案,甚至在被问到时生成了图表代码。可视化结果准确,与解释一致。

任务 2:进行多步骤研究

提示词: “Tell me about Analytics Vidhya’s latest post on X and find the latest blog on their website – summarise information on them in 5 lines each.

结果:

分析:

这项任务的表现比我想象的要好。任务本身并不难,但我看到很多模型在日期方面难以准确获取最新信息。Grok 4 只花了几秒钟就搞定了。它浏览了网站和 Twitter 页面,找到了最新信息,然后推理出来,为每个帖子提供了 5 行具体的代码。

任务 3:结合上下文进行编码

提示词: “Merge all these PDFs and create a single JSON file.”

Files

结果:

结合上下文进行编码

分析

一开始还不错,我列出了几个文件的内容,然后就开始出现幻觉。结果里只有一串 #。这很令人失望。

提示词2:Convert the following code into Python and React

Code File

结果:

分析:

Grok 4 快速高效,它很快就生成了 Python 代码,并且能够理解提示中出现的“react”一词。我期待着看到我应用前端的代码。然后,它还显示了每个部分的代码,方便我在需要时轻松复制所需的部分。

Grok 4基准测试

Grok 4 几乎在我们通常测试的所有基准测试中都取得了优异的成绩。以下是摘要:

Grok 4基准测试

Source: X

  1. GPQA(研究生物理试题库):该基准测试测试专家级的科学知识。在此基准测试中,Grok 4 的准确率达到 87-88%,领先于 GPT-4o 和 Claude 3.5 Sonnet 等竞争对手。
  2. AIME(美国数学邀请赛)2025:该基准测试比较数学能力。Grok 4 的准确率达到 95%,一些报告甚至声称准确率高达 100%。这超越了之前的 SOTA 模型。
  3. SWE-Bench(软件工程基准测试):它评估编码和实际软件问题解决能力(Grok 4 代码变体)。分数范围为 72-75%,显著领先于 o3-mini(高)和 Claude 3.5 Sonnet。
  4. 其他数学和推理基准:Grok 4 在美国数学奥林匹克竞赛、哈佛-麻省理工学院数学锦标赛以及类似测试中均表现出色,并显著超越之前的 SOTA。它在一般推理和跨领域博士级任务中也表现出色。

这些是测试任何最新 LLM 的常用基准。Grok 4 还提供了两个新基准的评分卡:ARC-AGI 和 Vending Bench。

ARC-AGI

该基准测试旨在检验模型距离实现 AGI(通用人工智能)的距离。测试通过对模型在不同的 ARC 类任务(一系列具有挑战性的谜题)上的表现进行评分来实现。

ARC-AGI

Source: X

Grok 4 占据榜首,突破了 10% 的门槛,这意味着该模型已迈出了通用推理的第一步。紧随其后的是 Claude Opus 4 模型,然后是 o3(高)、o4-mini(高)以及其他模型!Grok 4 似乎比其他同类模型更接近 AGI。

Vending Bench

该基准测试了代理型 AI 系统,以衡量这些代理与真实电商网站交互以完成复杂任务的能力。它旨在对现实世界的决策、规划和 UI 交互进行压力测试。

Grok 4 在这方面也表现出色,击败了一些人类模型、Claude 4、Opus、Gemini 2.5 Pro 和 o3。

Vending Bench

Source: X

事实上,Grok 4 曾被测试运行一台真正的自动售货机,并因此获得了巨额利润。几天前,Anthropic 也发布了类似的关于 Claude 运行自动售货机的案例,其中提到机器出现了亏损!

Grok 4的应用

Grok 4 拥有一系列强大的功能和性能基准,因此它在以下领域非常有用:

  1. 实时社交媒体互动:它作为聊天机器人直接集成到 X(以前称为 Twitter)中。它可以用来生成表情包、帖子、投票、摘要或进行情绪分析。
  2. 高级研究:它可以解决博士级别的问题,这表明它可以真正为数学、物理和工程领域的高级研究做出贡献。
  3. 商业规划:它可以帮助制定战略并进行高级商业分析,从而帮助您获得切实可行的洞察。
  4. 编码与写作:Grok 4 拥有出色的 SWE 基准测试和代理功能,因此它可以承担许多编码任务并表现出色。

Grok 3 vs Grok 4

尽管 Grok 3 因其种族主义言论而备受关注,但 Grok 4 的开发团队希望做的不仅仅是控制损害。Grok 4 从一开始就集成了工具使用功能,Grok 团队计划将其升级到“商业级”功能,帮助您解决实际的现实问题。除此之外,我们期待 Grok 4 很快掌握视频和图像的分析和生成功能,让我们更接近体验可玩的 AI 生成的视频游戏和完全 AI 生成的节目。

小结

Grok 4 是否意义重大?当然。在一个日益饱和的市场中,它如同一股清流,比其前代产品有了真正的改进。随着实际用例的不断涌现,它似乎有望帮助解决许多日常问题。标准版和重型版都具备代理性,速度快,推理能力显著提升。虽然有人认为它是为通用人工智能 (AGI) 打造的,但我相信它仍有发展的空间和时间。Grok 3 最初也曾充满希望,但后来偏离了正轨。新版本只是一个开始,我们还需要进行大量测试才能真正了解它的潜力。

评论留言