Grok 4震撼釋出:馬斯克最新多模態大模型全面評測

Grok 4震撼釋出:馬斯克最新多模態大模型全面評測

埃隆·馬斯克和他的 Grok 團隊攜其最新、最強的模型 Grok 4 強勢迴歸。就在三個月前,這支專家團隊剛剛釋出了 Grok 3,該模型至今仍與 OpenAI、Gemini 和 Anthropic 等巨頭競爭。但憑藉 Grok 4,埃隆·馬斯克正在與這些公司展開激烈競爭。Grok 4 擁有超人級別的思維和推理能力。憑藉其豐富的工具和智慧體,它能夠更好地理解個人和職業世界。在本篇博文中,我們將全面探索 Grok 4:它的特性、功能、基準測試,最後我們將對其進行測試。

它比幾乎所有學科的研究生都聰明——埃隆·馬斯克。

什麼是Grok 4?

Grok 4 是埃隆·馬斯克的公司 x.ai 最新推出的多模態大型語言模型 (LLM)。它的訓練資料比 Grok 2(x.ai 的首個公開模型)多 100 倍,強化學習計算能力比任何其他現有模型都高 10 倍。Grok 4 擁有 256K 上下文視窗、即時資料搜尋、高階語音功能、智慧代理能力以及與人類行為高度相似的智慧。

Grok 4 有兩個版本:

  • 普通版:這是 Grok 4 LLM 的單智慧體版本。它具有智慧代理行為,即由一個智慧代理來解決您的問題。該模型適用於涉及語言、搜尋、編碼等日常任務。它包含在 x.ai 提供的 Super Grok 套餐中,也可透過 API 為開發者提供。
  • Grok 4 Heavy:這是 Grok 4 的多智慧體版本。在提示下,多個智慧代理會協作、比較結果並生成最佳結果。它是複雜推理、深度分析和研究的理想選擇。它僅在 x.ai 的 Super Grok Heavy 套餐中提供。

主要特點

  • 學術奇才:Grok 4 在人類終極考試 (HLE) 基準測試中表現出色。在涵蓋數學、物理、化學、人文和電腦科學的 2,500 道題中,Grok 4 在一半題目中獲得了兩位數的得分!目前大多數模型的得分僅為個位數,這表明 Grok 4 可以解決跨學科的博士級問題。
  • 工具使用:Grok 4 已進行原生工具使用訓練,其效能優於 Grok 3 的研究工具。憑藉強大的擴充套件能力和計算能力,它甚至可以處理最棘手的基於文字的問題。
  • 代理化設計:Grok 4 模型具有代理化設計。透過在後臺執行單個和多個代理,這些模型可以快速執行多項任務。
  • 增強的語音功能:Grok 4 模型配備了先進的語音模式,與 Open AI 和 Gemini 的其他模型相比,其語音聽起來更加個性化和平靜。它配備了一個新聲音“Eve”——一個英國說話者,可以快速從唱歌切換到低語,模仿類似人類的情緒。此外,與之前的版本相比,最新語音模式的延遲減少了一半。
  • 它可以經營企業:Grok 4 模型可以像人類一樣推理,並做出果斷的決策、制定戰略和計劃,使其能夠經營企業。事實上,它們也可能幫助你賺取一些利潤。

在多模態能力方面,尤其是影像分析和生成,Grok 4 模型目前的表現不如 o3、Gemini 2.4 Pro、Claude 4 等頂級模型。儘管這種情況可能會在未來幾天(或幾周)內顯著改善。

可用性

Grok套餐方案

Source: X

  • Super Grok:包含 Grok 4 和 Grok 3。配備 128K 令牌視窗、語音和視覺功能。價格為每月 30 美元或每年 300 美元。
  • Super Grok Heavy:包含 Grok 4 Heavy 和 Grok 4。提供增強的上下文視窗和新功能的搶先體驗。此高階套餐價格為每月 300 美元或每年 3,000 美元,與 OpenAI 和 Google 的高階套餐相當。

如何訪問Grok 4?

要在聊天中使用 Grok 4:

  1. 前往 Grok
  2. 登入您的 Super Grok 帳戶。
  3. 在螢幕中間的聊天框中,點選聊天框角落的小模型下拉選單。
  4. 選擇“Grok 4”模型

Grok 4對話視窗

Source: Grok

  1. 完成後,您就可以開始了。

要透過 API 訪問 Grok 4:

  1. 前往 https://x.ai/api 並點選“API Console Login”。
  2. 點選“API Keys”。
  3. 點選“Create API key”,然後為您的 API 金鑰命名,並點選“Save”以生成您的 Grok API 金鑰。
  4. 現在,要使用 API 端點訪問 Grok 4,請訪問 https://docs.x.ai/docs/models/grok-4-0709 並使用以下程式碼片段進行訪問。
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
from xai_sdk import Client
from xai_sdk.chat import user, system
client = Client(
api_host="api.x.ai",
api_key="<YOUR_XAI_API_KEY_HERE>"
)
chat = client.chat.create(model='grok-4-0709', temperature=0)
chat.append(system("You are a PhD-level mathematician."))
chat.append(user("What is 2 + 2?"))
response = chat.sample()
print(response.content)
from xai_sdk import Client from xai_sdk.chat import user, system client = Client( api_host="api.x.ai", api_key="<YOUR_XAI_API_KEY_HERE>" ) chat = client.chat.create(model='grok-4-0709', temperature=0) chat.append(system("You are a PhD-level mathematician.")) chat.append(user("What is 2 + 2?")) response = chat.sample() print(response.content)
from xai_sdk import Client
from xai_sdk.chat import user, system
client = Client(
    api_host="api.x.ai",
    api_key="<YOUR_XAI_API_KEY_HERE>"
)
chat = client.chat.create(model='grok-4-0709', temperature=0)
chat.append(system("You are a PhD-level mathematician."))
chat.append(user("What is 2 + 2?"))
response = chat.sample()
print(response.content)

Grok 4實戰

現在我們已經瞭解了 Grok 4 的全部內容,是時候看看它是否真的像宣傳的那樣強大了。為此,我們將在以下任務上測試 Grok 4:

  1. 博士級問題,測試其推理能力
  2. 多步驟研究,測試其代理能力
  3. 結合上下文進行編碼,測試其實際應用能力

任務 1:解決博士級問題

解決博士級問題

Source:Yale 

結果:

分析:

Grok 4 逐步解決問題,按順序解答每個問題。它正確地解讀了提示,推理瞭解決方案,甚至在被問到時生成了圖表程式碼。視覺化結果準確,與解釋一致。

任務 2:進行多步驟研究

提示詞: “Tell me about Analytics Vidhya’s latest post on X and find the latest blog on their website – summarise information on them in 5 lines each.

結果:

分析:

這項任務的表現比我想象的要好。任務本身並不難,但我看到很多模型在日期方面難以準確獲取最新資訊。Grok 4 只花了幾秒鐘就搞定了。它瀏覽了網站和 Twitter 頁面,找到了最新資訊,然後推理出來,為每個帖子提供了 5 行具體的程式碼。

任務 3:結合上下文進行編碼

提示詞: “Merge all these PDFs and create a single JSON file.”

Files

結果:

結合上下文進行編碼

分析

一開始還不錯,我列出了幾個檔案的內容,然後就開始出現幻覺。結果裡只有一串 #。這很令人失望。

提示詞2:Convert the following code into Python and React

Code File

結果:

分析:

Grok 4 快速高效,它很快就生成了 Python 程式碼,並且能夠理解提示中出現的“react”一詞。我期待著看到我應用前端的程式碼。然後,它還顯示了每個部分的程式碼,方便我在需要時輕鬆複製所需的部分。

Grok 4基準測試

Grok 4 幾乎在我們通常測試的所有基準測試中都取得了優異的成績。以下是摘要:

Grok 4基準測試

Source: X

  1. GPQA(研究生物理試題庫):該基準測試測試專家級的科學知識。在此基準測試中,Grok 4 的準確率達到 87-88%,領先於 GPT-4o 和 Claude 3.5 Sonnet 等競爭對手。
  2. AIME(美國數學邀請賽)2025:該基準測試比較數學能力。Grok 4 的準確率達到 95%,一些報告甚至聲稱準確率高達 100%。這超越了之前的 SOTA 模型。
  3. SWE-Bench(軟體工程基準測試):它評估編碼和實際軟體問題解決能力(Grok 4 程式碼變體)。分數範圍為 72-75%,顯著領先於 o3-mini(高)和 Claude 3.5 Sonnet。
  4. 其他數學和推理基準:Grok 4 在美國數學奧林匹克競賽、哈佛-麻省理工學院數學錦標賽以及類似測試中均表現出色,並顯著超越之前的 SOTA。它在一般推理和跨領域博士級任務中也表現出色。

這些是測試任何最新 LLM 的常用基準。Grok 4 還提供了兩個新基準的評分卡:ARC-AGI 和 Vending Bench。

ARC-AGI

該基準測試旨在檢驗模型距離實現 AGI(通用人工智慧)的距離。測試透過對模型在不同的 ARC 類任務(一系列具有挑戰性的謎題)上的表現進行評分來實現。

ARC-AGI

Source: X

Grok 4 佔據榜首,突破了 10% 的門檻,這意味著該模型已邁出了通用推理的第一步。緊隨其後的是 Claude Opus 4 模型,然後是 o3(高)、o4-mini(高)以及其他模型!Grok 4 似乎比其他同類模型更接近 AGI。

Vending Bench

該基準測試了代理型 AI 系統,以衡量這些代理與真實電商網站互動以完成複雜任務的能力。它旨在對現實世界的決策、規劃和 UI 互動進行壓力測試。

Grok 4 在這方面也表現出色,擊敗了一些人類模型、Claude 4、Opus、Gemini 2.5 Pro 和 o3。

Vending Bench

Source: X

事實上,Grok 4 曾被測試執行一臺真正的自動售貨機,並因此獲得了鉅額利潤。幾天前,Anthropic 也釋出了類似的關於 Claude 執行自動售貨機的案例,其中提到機器出現了虧損!

Grok 4的應用

Grok 4 擁有一系列強大的功能和效能基準,因此它在以下領域非常有用:

  1. 即時社交媒體互動:它作為聊天機器人直接整合到 X(以前稱為 Twitter)中。它可以用來生成表情包、帖子、投票、摘要或進行情緒分析。
  2. 高階研究:它可以解決博士級別的問題,這表明它可以真正為數學、物理和工程領域的高階研究做出貢獻。
  3. 商業規劃:它可以幫助制定戰略並進行高階商業分析,從而幫助您獲得切實可行的洞察。
  4. 編碼與寫作:Grok 4 擁有出色的 SWE 基準測試和代理功能,因此它可以承擔許多編碼任務並表現出色。

Grok 3 vs Grok 4

儘管 Grok 3 因其種族主義言論而備受關注,但 Grok 4 的開發團隊希望做的不僅僅是控制損害。Grok 4 從一開始就整合了工具使用功能,Grok 團隊計劃將其升級到“商業級”功能,幫助您解決實際的現實問題。除此之外,我們期待 Grok 4 很快掌握影片和影像的分析和生成功能,讓我們更接近體驗可玩的 AI 生成的影片遊戲和完全 AI 生成的節目。

小結

Grok 4 是否意義重大?當然。在一個日益飽和的市場中,它如同一股清流,比其前代產品有了真正的改進。隨著實際用例的不斷湧現,它似乎有望幫助解決許多日常問題。標準版和重型版都具備代理性,速度快,推理能力顯著提升。雖然有人認為它是為通用人工智慧 (AGI) 打造的,但我相信它仍有發展的空間和時間。Grok 3 最初也曾充滿希望,但後來偏離了正軌。新版本只是一個開始,我們還需要進行大量測試才能真正瞭解它的潛力。

評論留言