
GPT-5 的最新版本席捲全球。OpenAI 的最新旗艦模型 GPT-5 的評價褒貶不一——有人稱讚其功能,也有人指出其不足之處。這讓我不禁思考:GPT-5 真的比最初備受青睞的 GPT-4o 更勝一籌嗎?
就我個人而言,GPT-4o 是我在各種 LLM 任務中的首選,涵蓋從文字摘要到影像生成和資料分析的各個方面。如今 OpenAI 已將其替換為 GPT-5,我決定對這兩個模型進行測試。這次升級是真正的革命性舉措,還是倉促之舉,可能會削弱 ChatGPT 的吸引力?
GPT 之戰就此開始!
GPT 5和GPT 4o:快速回顧
讓我們快速深入瞭解一下我們將在本文章中測試的兩個 ChatGPT 模型:GPT-5 和 GPT 4o
GPT-5
GPT-5 於上週釋出,目前是 ChatGPT 最先進的模型。 OpenAI 最新的多模態 LLM 引入了代理功能和用於任務評估的“統一系統”。該系統自動判斷查詢是需要深度推理還是基本處理。與之前的模型不同,GPT-5 遵循“邊做邊學”的方法。它表現出更強的同理心,但親和力不如前輩。此外,GPT-5 還增強了編碼、寫作和氛圍編碼能力。
更多資訊,請參閱我之前關於 GPT-5 的文章。
GPT-4o
去年釋出的 GPT-4o(“o” 代表“全能”)是同類首創的模型。這種多模態改變了人們使用 ChatGPT 的方式。該模型增強了編碼和視覺分析能力。GPT-4o 還具備語音識別和語音分析功能。該模型提高了處理速度並降低了響應延遲。 OpenAI 的 GPT-4o 能夠生成更自然、更合理的響應,並且能夠訪問工具並提供即時資訊。
GPT 5與GPT 4o:功能比較
| 功能/特性 | GPT-4o | GPT-5 |
|---|---|---|
| 釋出日期 | 2024年5月 | 2025年8月 |
| 支援模態 | 文字、影像、音訊 | 文字、影像、音訊、影片 |
| 上下文視窗(ChatGPT) | ~128,000 個 token | 256,000 個 token |
| 上下文視窗(API) | ~128,000 個 token | 400,000 個 token |
| 推理模式 | 單一模型 | 快速推理 + 深度推理雙模式 |
| 幻覺率 | 較低 | 迄今為止 OpenAI 中最低 |
| 個性化 | 無 | 個性化預設 +語氣控制 |
| 工具整合 | 受限 | Gmail、日曆、程式碼工具等 |
| 安全補全 | 無 | 有 – 有界限的、有用的答案 |
| SWE-bench 驗證 | 30.8% 準確性 | 74.9% 準確性 |
| AIME 2025(數學) | 71% | 94.6%(無工具) |
| VideoMMMU | 58.8% | 81.1% |
| HealthBench | 31.6% | 46.2% |
| 目標使用場景 | 即時互動、創意任務 | 複雜推理、企業工作流 |
GPT 5與GPT 4o:任務對比
現在,讓我們透過評估它們在以下任務上的表現來測試這兩個模型:
- 內容創作
- 影像生成
- 編碼
- 影像分析
- 推理
GPT-5 與 GPT-4o 的較量開始了!
任務 1:內容創作
閱讀指定文章,瞭解為維基百科資料建立向量資料庫的過程。然後,簡要概述關鍵步驟。
GPT-5響應:

GPT-4o響應:

點評:
GPT-5 生成的回覆是精通該主題的人員所需的簡潔摘要。所有步驟均按正確順序列出,並附帶足夠的上下文。另一方面,GPT-4o 的回覆是對部落格中提到的所有步驟的總結。它以與部落格中討論相同的方式列出了部落格中涵蓋的所有步驟。這兩個模型在方法上的區別在於:GPT-5 合併各個要點以生成整個過程的簡潔摘要,而 GPT-4o 則建立了部落格中涵蓋的所有步驟的簡潔摘要。
任務 2:影像生成
該圖展示了語音代理的工作原理。它包含三個主要部分:語音轉文字 (STT):捕捉您的語音並將其轉換為文字;代理邏輯:這是您的程式碼(或代理),用於計算出合適的響應;文字轉語音 (TTS):將代理的文字回復轉換回大聲朗讀的音訊。將這張基礎影像轉換為生動的影像。
GPT-5響應:

GPT-4o響應:

點評:
任務很簡單,兩個模型都執行得相當好。從 GPT-5 開始,它建立了一個色彩鮮豔的生動影像。它生成的影像包含文字和圖示;然而,有一個小錯誤——麥克風圖示和 TTS 框之間有一個小箭頭連線。至於 GPT-4o 生成的影像,它使用了純色,使其不那麼生動。GPT-4o 影像的優勢在於它包含的音訊輸入和輸出源。
任務 3:編碼
字數統計網站的基本 HTML 程式碼。
GPT-5響應:

GPT-4o響應:

點評:
GPT-5 為這個查詢生成程式碼,特別是字數統計網站,花了一些時間。然而,最終的輸出相當令人印象深刻。UI/UX 和功能整合在一起,打造了一個功能齊全的字數統計網頁。相比之下,GPT-4o 的輸出顯得乏善可陳。UI/UX 比較基礎,只提供了核心的字數統計功能,沒有進行任何額外的改進。其設計也顯得有些過時。
任務 4:影像分析
計算此電路圖的輸出。

Souce: ResearchGate
GPT-5響應:

GPT-4o響應:

點評:
GPT-5 快速解答了這個問題,高效地分析了影像及其元件。它正確識別了半波整流器,讀取了圖中標記的值,並運用正確的邏輯計算了輸出電流和電壓值。相比之下,GPT-4o 在這項任務上表現不佳。雖然它識別出了輸出波形,但未能處理其他關鍵因素。最值得注意的是,GPT-4o 無法從影像中提取執行任何計算所需的值。
任務 5:推理
解答以下數獨題,並將最終答案以影像形式呈現。

GPT-5響應:

GPT-4o響應:

點評:
GPT-5 最初在影像解讀方面遇到了困難,處理輸入耗時超過三分鐘。它並非獨立解決謎題,而是請求確認影像中的多個值。在我手動提供所有行值後,模型成功處理並解決了謎題,並給出了正確的解決方案,儘管這需要大量的使用者協助。
相比之下,GPT-4o 未能完全解決謎題。它只是用零填充了所有缺失值,並將其作為輸出解決方案。
GPT-5 與 GPT-4o:最終點評
選出一個明顯的贏家從未如此困難。以下是兩門法學碩士課程在不同任務上的表現:
| Task | GPT-5 | GPT-4o |
|---|---|---|
| Content Creation | More concise | Better summarized |
| Image Generation | More vibrant | More creative |
| Coding | Great | Limited capability |
| Image Analysis | Average | Average |
| Reasoning | Excellent | Basic capability |
兩者之間是否存在明顯的贏家?答案是否定的。不同任務的表現差異很大:
- GPT-5 在編碼和推理方面佔據主導地位
- GPT-4o 在內容創作和影像生成/分析方面不相上下
- 速度 vs. 深度:GPT-4o 響應速度更快,而 GPT-5 有時會在全面分析和快速生成之間猶豫不決
背景很重要:請記住,GPT-4o 比 GPT-4o 早一年。雖然 GPT-5 受益於更新的訓練資料和代理最佳化,但與其前身相比,它真的具有突破性嗎?並非如此。
小結
全世界都要求 GPT-4o 迴歸,我完全同意。
雖然 GPT-5 自第一天以來就有所改進(現在的表現甚至超過了第三天的結果),但其倉促上線讓使用者難以適應。事實上,GPT-5 在某些特定任務上的表現僅略勝 GPT-4o,這讓我們很難放棄我們摯愛的 GPT-4o,轉而選擇那些感覺只是“好一點點”的東西。或許 OpenAI 在釋出之前需要進行更嚴格的測試。但既然它已經上線,我們只能拭目以待它的演變。
今天?我願意簽署任何恢復 GPT-4o 的請願書。ChatGPT 已經改變了,而且並沒有變得更好。請在評論區分享你的想法。

評論留言