Grok 4震撼釋出：馬斯克最新多模態大模型全面評測

埃隆·馬斯克和他的 Grok 團隊攜其最新、最強的模型 Grok 4 強勢迴歸。就在三個月前，這支專家團隊剛剛釋出了 Grok 3，該模型至今仍與 OpenAI、Gemini 和 Anthropic 等巨頭競爭。但憑藉 Grok 4，埃隆·馬斯克正在與這些公司展開激烈競爭。Grok 4 擁有超人級別的思維和推理能力。憑藉其豐富的工具和智慧體，它能夠更好地理解個人和職業世界。在本篇博文中，我們將全面探索 Grok 4：它的特性、功能、基準測試，最後我們將對其進行測試。

它比幾乎所有學科的研究生都聰明——埃隆·馬斯克。

什麼是Grok 4？

Grok 4 是埃隆·馬斯克的公司 x.ai 最新推出的多模態大型語言模型 (LLM)。它的訓練資料比 Grok 2（x.ai 的首個公開模型）多 100 倍，強化學習計算能力比任何其他現有模型都高 10 倍。Grok 4 擁有 256K 上下文視窗、即時資料搜尋、高階語音功能、智慧代理能力以及與人類行為高度相似的智慧。

Grok 4 有兩個版本：

普通版：這是 Grok 4 LLM 的單智慧體版本。它具有智慧代理行為，即由一個智慧代理來解決您的問題。該模型適用於涉及語言、搜尋、編碼等日常任務。它包含在 x.ai 提供的 Super Grok 套餐中，也可透過 API 為開發者提供。
Grok 4 Heavy：這是 Grok 4 的多智慧體版本。在提示下，多個智慧代理會協作、比較結果並生成最佳結果。它是複雜推理、深度分析和研究的理想選擇。它僅在 x.ai 的 Super Grok Heavy 套餐中提供。

主要特點

學術奇才：Grok 4 在人類終極考試 (HLE) 基準測試中表現出色。在涵蓋數學、物理、化學、人文和電腦科學的 2,500 道題中，Grok 4 在一半題目中獲得了兩位數的得分！目前大多數模型的得分僅為個位數，這表明 Grok 4 可以解決跨學科的博士級問題。
工具使用：Grok 4 已進行原生工具使用訓練，其效能優於 Grok 3 的研究工具。憑藉強大的擴充套件能力和計算能力，它甚至可以處理最棘手的基於文字的問題。
代理化設計：Grok 4 模型具有代理化設計。透過在後臺執行單個和多個代理，這些模型可以快速執行多項任務。
增強的語音功能：Grok 4 模型配備了先進的語音模式，與 Open AI 和 Gemini 的其他模型相比，其語音聽起來更加個性化和平靜。它配備了一個新聲音“Eve”——一個英國說話者，可以快速從唱歌切換到低語，模仿類似人類的情緒。此外，與之前的版本相比，最新語音模式的延遲減少了一半。
它可以經營企業：Grok 4 模型可以像人類一樣推理，並做出果斷的決策、制定戰略和計劃，使其能夠經營企業。事實上，它們也可能幫助你賺取一些利潤。

在多模態能力方面，尤其是影像分析和生成，Grok 4 模型目前的表現不如 o3、Gemini 2.4 Pro、Claude 4 等頂級模型。儘管這種情況可能會在未來幾天（或幾周）內顯著改善。

可用性

Grok套餐方案

Source: X

Super Grok：包含 Grok 4 和 Grok 3。配備 128K 令牌視窗、語音和視覺功能。價格為每月 30 美元或每年 300 美元。
Super Grok Heavy：包含 Grok 4 Heavy 和 Grok 4。提供增強的上下文視窗和新功能的搶先體驗。此高階套餐價格為每月 300 美元或每年 3,000 美元，與 OpenAI 和 Google 的高階套餐相當。

如何訪問Grok 4？

要在聊天中使用 Grok 4：

前往 Grok。
登入您的 Super Grok 帳戶。
在螢幕中間的聊天框中，點選聊天框角落的小模型下拉選單。
選擇“Grok 4”模型

Grok 4對話視窗

Source: Grok

完成後，您就可以開始了。

要透過 API 訪問 Grok 4：

前往 https://x.ai/api 並點選“API Console Login”。
點選“API Keys”。
點選“Create API key”，然後為您的 API 金鑰命名，並點選“Save”以生成您的 Grok API 金鑰。
現在，要使用 API 端點訪問 Grok 4，請訪問 https://docs.x.ai/docs/models/grok-4-0709 並使用以下程式碼片段進行訪問。

from xai_sdk import Client
from xai_sdk.chat import user, system
client = Client(
    api_host="api.x.ai",
    api_key="<YOUR_XAI_API_KEY_HERE>"
)
chat = client.chat.create(model='grok-4-0709', temperature=0)
chat.append(system("You are a PhD-level mathematician."))
chat.append(user("What is 2 + 2?"))
response = chat.sample()
print(response.content)

Grok 4實戰

現在我們已經瞭解了 Grok 4 的全部內容，是時候看看它是否真的像宣傳的那樣強大了。為此，我們將在以下任務上測試 Grok 4：

博士級問題，測試其推理能力
多步驟研究，測試其代理能力
結合上下文進行編碼，測試其實際應用能力

任務 1：解決博士級問題

解決博士級問題

Source:Yale

結果：

分析：

Grok 4 逐步解決問題，按順序解答每個問題。它正確地解讀了提示，推理瞭解決方案，甚至在被問到時生成了圖表程式碼。視覺化結果準確，與解釋一致。

任務 2：進行多步驟研究

提示詞： “Tell me about Analytics Vidhya’s latest post on X and find the latest blog on their website – summarise information on them in 5 lines each.”

結果：

分析：

這項任務的表現比我想象的要好。任務本身並不難，但我看到很多模型在日期方面難以準確獲取最新資訊。Grok 4 只花了幾秒鐘就搞定了。它瀏覽了網站和 Twitter 頁面，找到了最新資訊，然後推理出來，為每個帖子提供了 5 行具體的程式碼。

任務 3：結合上下文進行編碼

提示詞： “Merge all these PDFs and create a single JSON file.”

Files

結果：

結合上下文進行編碼

分析

一開始還不錯，我列出了幾個檔案的內容，然後就開始出現幻覺。結果裡只有一串 #。這很令人失望。

提示詞2：“Convert the following code into Python and React”

Code File

結果：

分析：

Grok 4 快速高效，它很快就生成了 Python 程式碼，並且能夠理解提示中出現的“react”一詞。我期待著看到我應用前端的程式碼。然後，它還顯示了每個部分的程式碼，方便我在需要時輕鬆複製所需的部分。

Grok 4基準測試

Grok 4 幾乎在我們通常測試的所有基準測試中都取得了優異的成績。以下是摘要：

Grok 4基準測試

Source: X

GPQA（研究生物理試題庫）：該基準測試測試專家級的科學知識。在此基準測試中，Grok 4 的準確率達到 87-88%，領先於 GPT-4o 和 Claude 3.5 Sonnet 等競爭對手。
AIME（美國數學邀請賽）2025：該基準測試比較數學能力。Grok 4 的準確率達到 95%，一些報告甚至聲稱準確率高達 100%。這超越了之前的 SOTA 模型。
SWE-Bench（軟體工程基準測試）：它評估編碼和實際軟體問題解決能力（Grok 4 程式碼變體）。分數範圍為 72-75%，顯著領先於 o3-mini（高）和 Claude 3.5 Sonnet。
其他數學和推理基準：Grok 4 在美國數學奧林匹克競賽、哈佛-麻省理工學院數學錦標賽以及類似測試中均表現出色，並顯著超越之前的 SOTA。它在一般推理和跨領域博士級任務中也表現出色。

這些是測試任何最新 LLM 的常用基準。Grok 4 還提供了兩個新基準的評分卡：ARC-AGI 和 Vending Bench。

ARC-AGI

該基準測試旨在檢驗模型距離實現 AGI（通用人工智慧）的距離。測試透過對模型在不同的 ARC 類任務（一系列具有挑戰性的謎題）上的表現進行評分來實現。

ARC-AGI

Source: X

Grok 4 佔據榜首，突破了 10% 的門檻，這意味著該模型已邁出了通用推理的第一步。緊隨其後的是 Claude Opus 4 模型，然後是 o3（高）、o4-mini（高）以及其他模型！Grok 4 似乎比其他同類模型更接近 AGI。

Vending Bench

該基準測試了代理型 AI 系統，以衡量這些代理與真實電商網站互動以完成複雜任務的能力。它旨在對現實世界的決策、規劃和 UI 互動進行壓力測試。

Grok 4 在這方面也表現出色，擊敗了一些人類模型、Claude 4、Opus、Gemini 2.5 Pro 和 o3。

Vending Bench

Source: X

事實上，Grok 4 曾被測試執行一臺真正的自動售貨機，並因此獲得了鉅額利潤。幾天前，Anthropic 也釋出了類似的關於 Claude 執行自動售貨機的案例，其中提到機器出現了虧損！

Grok 4的應用

Grok 4 擁有一系列強大的功能和效能基準，因此它在以下領域非常有用：

即時社交媒體互動：它作為聊天機器人直接整合到 X（以前稱為 Twitter）中。它可以用來生成表情包、帖子、投票、摘要或進行情緒分析。
高階研究：它可以解決博士級別的問題，這表明它可以真正為數學、物理和工程領域的高階研究做出貢獻。
商業規劃：它可以幫助制定戰略並進行高階商業分析，從而幫助您獲得切實可行的洞察。
編碼與寫作：Grok 4 擁有出色的 SWE 基準測試和代理功能，因此它可以承擔許多編碼任務並表現出色。

Grok 3 vs Grok 4

儘管 Grok 3 因其種族主義言論而備受關注，但 Grok 4 的開發團隊希望做的不僅僅是控制損害。Grok 4 從一開始就整合了工具使用功能，Grok 團隊計劃將其升級到“商業級”功能，幫助您解決實際的現實問題。除此之外，我們期待 Grok 4 很快掌握影片和影像的分析和生成功能，讓我們更接近體驗可玩的 AI 生成的影片遊戲和完全 AI 生成的節目。

小結

Grok 4 是否意義重大？當然。在一個日益飽和的市場中，它如同一股清流，比其前代產品有了真正的改進。隨著實際用例的不斷湧現，它似乎有望幫助解決許多日常問題。標準版和重型版都具備代理性，速度快，推理能力顯著提升。雖然有人認為它是為通用人工智慧 (AGI) 打造的，但我相信它仍有發展的空間和時間。Grok 3 最初也曾充滿希望，但後來偏離了正軌。新版本只是一個開始，我們還需要進行大量測試才能真正瞭解它的潛力。

Grok 4 馬斯克

Grok 4震撼釋出：馬斯克最新多模態大模型全面評測

文章目录

什麼是Grok 4？

主要特點

可用性

如何訪問Grok 4？