GPT-5與GPT-4o:最新的OpenAI模型是否比最受歡迎的舊模型更好?

GPT-5與GPT-4o:最新的OpenAI模型是否比最受歡迎的舊模型更好?

文章目录

  • GPT 5和GPT 4o:快速回顧
  • GPT 5與GPT 4o:功能比較
  • GPT 5與GPT 4o:任務對比
  • 任務 1:內容創作
  • 任務 2:影像生成
  • 任務 3:編碼
  • 任務 4:影像分析
  • 任務 5:推理
  • GPT-5 與 GPT-4o:最終點評
  • 小結

GPT-5與GPT-4o

GPT-5 的最新版本席捲全球。OpenAI 的最新旗艦模型 GPT-5 的評價褒貶不一——有人稱讚其功能,也有人指出其不足之處。這讓我不禁思考:GPT-5 真的比最初備受青睞的 GPT-4o 更勝一籌嗎?

就我個人而言,GPT-4o 是我在各種 LLM 任務中的首選,涵蓋從文字摘要到影像生成和資料分析的各個方面。如今 OpenAI 已將其替換為 GPT-5,我決定對這兩個模型進行測試。這次升級是真正的革命性舉措,還是倉促之舉,可能會削弱 ChatGPT 的吸引力?

GPT 之戰就此開始!

GPT 5和GPT 4o:快速回顧

讓我們快速深入瞭解一下我們將在本文章中測試的兩個 ChatGPT 模型:GPT-5 和 GPT 4o

GPT-5

GPT-5 於上週釋出,目前是 ChatGPT 最先進的模型。 OpenAI 最新的多模態 LLM 引入了代理功能和用於任務評估的“統一系統”。該系統自動判斷查詢是需要深度推理還是基本處理。與之前的模型不同,GPT-5 遵循“邊做邊學”的方法。它表現出更強的同理心,但親和力不如前輩。此外,GPT-5 還增強了編碼、寫作和氛圍編碼能力。

更多資訊,請參閱我之前關於 GPT-5 的文章

GPT-4o

去年釋出的 GPT-4o(“o” 代表“全能”)是同類首創的模型。這種多模態改變了人們使用 ChatGPT 的方式。該模型增強了編碼和視覺分析能力。GPT-4o 還具備語音識別和語音分析功能。該模型提高了處理速度並降低了響應延遲。 OpenAI 的 GPT-4o 能夠生成更自然、更合理的響應,並且能夠訪問工具並提供即時資訊。

GPT 5與GPT 4o:功能比較

功能/特性 GPT-4o GPT-5
釋出日期 2024年5月 2025年8月
支援模態 文字、影像、音訊 文字、影像、音訊、影片
上下文視窗(ChatGPT) ~128,000 個 token 256,000 個 token
上下文視窗(API) ~128,000 個 token 400,000 個 token
推理模式 單一模型 快速推理 + 深度推理雙模式
幻覺率 較低 迄今為止 OpenAI 中最低
個性化 個性化預設 +語氣控制
工具整合 受限 Gmail、日曆、程式碼工具等
安全補全 有 – 有界限的、有用的答案
SWE-bench 驗證 30.8% 準確性 74.9% 準確性
AIME 2025(數學) 71% 94.6%(無工具)
VideoMMMU 58.8% 81.1%
HealthBench 31.6% 46.2%
目標使用場景 即時互動、創意任務 複雜推理、企業工作流

GPT 5與GPT 4o:任務對比

現在,讓我們透過評估它們在以下任務上的表現來測試這兩個模型:

  1. 內容創作
  2. 影像生成
  3. 編碼
  4. 影像分析
  5. 推理

GPT-5 與 GPT-4o 的較量開始了!

任務 1:內容創作

閱讀指定文章,瞭解為維基百科資料建立向量資料庫的過程。然後,簡要概述關鍵步驟。

GPT-5響應:

GPT-5內容創作

GPT-4o響應:

GPT-4o內容創作

點評:

GPT-5 生成的回覆是精通該主題的人員所需的簡潔摘要。所有步驟均按正確順序列出,並附帶足夠的上下文。另一方面,GPT-4o 的回覆是對部落格中提到的所有步驟的總結。它以與部落格中討論相同的方式列出了部落格中涵蓋的所有步驟。這兩個模型在方法上的區別在於:GPT-5 合併各個要點以生成整個過程的簡潔摘要,而 GPT-4o 則建立了部落格中涵蓋的所有步驟的簡潔摘要。

任務 2:影像生成

該圖展示了語音代理的工作原理。它包含三個主要部分:語音轉文字 (STT):捕捉您的語音並將其轉換為文字;代理邏輯:這是您的程式碼(或代理),用於計算出合適的響應;文字轉語音 (TTS):將代理的文字回復轉換回大聲朗讀的音訊。將這張基礎影像轉換為生動的影像。

GPT-5響應:

GPT-5影像生成

GPT-4o響應:

GPT-4o影像生成

點評:

任務很簡單,兩個模型都執行得相當好。從 GPT-5 開始,它建立了一個色彩鮮豔的生動影像。它生成的影像包含文字和圖示;然而,有一個小錯誤——麥克風圖示和 TTS 框之間有一個小箭頭連線。至於 GPT-4o 生成的影像,它使用了純色,使其不那麼生動。GPT-4o 影像的優勢在於它包含的音訊輸入和輸出源。

任務 3:編碼

字數統計網站的基本 HTML 程式碼。

GPT-5響應:

GPT-5編碼任務

GPT-4o響應:

GPT-4o編碼任務

點評:

GPT-5 為這個查詢生成程式碼,特別是字數統計網站,花了一些時間。然而,最終的輸出相當令人印象深刻。UI/UX 和功能整合在一起,打造了一個功能齊全的字數統計網頁。相比之下,GPT-4o 的輸出顯得乏善可陳。UI/UX 比較基礎,只提供了核心的字數統計功能,沒有進行任何額外的改進。其設計也顯得有些過時。

任務 4:影像分析

計算此電路圖的輸出。

電路圖

SouceResearchGate

GPT-5響應:

GPT-5影像分析

GPT-4o響應:

GPT-4o影像分析

點評:

GPT-5 快速解答了這個問題,高效地分析了影像及其元件。它正確識別了半波整流器,讀取了圖中標記的值,並運用正確的邏輯計算了輸出電流和電壓值。相比之下,GPT-4o 在這項任務上表現不佳。雖然它識別出了輸出波形,但未能處理其他關鍵因素。最值得注意的是,GPT-4o 無法從影像中提取執行任何計算所需的值。

任務 5:推理

解答以下數獨題,並將最終答案以影像形式呈現。

數獨題

GPT-5響應:

GPT-5數獨解答

GPT-4o響應:

GPT-4o數獨解答

點評:

GPT-5 最初在影像解讀方面遇到了困難,處理輸入耗時超過三分鐘。它並非獨立解決謎題,而是請求確認影像中的多個值。在我手動提供所有行值後,模型成功處理並解決了謎題,並給出了正確的解決方案,儘管這需要大量的使用者協助。

相比之下,GPT-4o 未能完全解決謎題。它只是用零填充了所有缺失值,並將其作為輸出解決方案。

GPT-5 與 GPT-4o:最終點評

選出一個明顯的贏家從未如此困難。以下是兩門法學碩士課程在不同任務上的表現:

Task GPT-5 GPT-4o
Content Creation More concise Better summarized
Image Generation More vibrant More creative
Coding Great Limited capability
Image Analysis Average Average
Reasoning Excellent Basic capability

兩者之間是否存在明顯的贏家?答案是否定的。不同任務的表現差異很大:

  • GPT-5 在編碼和推理方面佔據主導地位
  • GPT-4o 在內容創作和影像生成/分析方面不相上下
  • 速度 vs. 深度:GPT-4o 響應速度更快,而 GPT-5 有時會在全面分析和快速生成之間猶豫不決

背景很重要:請記住,GPT-4o 比 GPT-4o 早一年。雖然 GPT-5 受益於更新的訓練資料和代理最佳化,但與其前身相比,它真的具有突破性嗎?並非如此。

小結

全世界都要求 GPT-4o 迴歸,我完全同意。

雖然 GPT-5 自第一天以來就有所改進(現在的表現甚至超過了第三天的結果),但其倉促上線讓使用者難以適應。事實上,GPT-5 在某些特定任務上的表現僅略勝 GPT-4o,這讓我們很難放棄我們摯愛的 GPT-4o,轉而選擇那些感覺只是“好一點點”的東西。或許 OpenAI 在釋出之前需要進行更嚴格的測試。但既然它已經上線,我們只能拭目以待它的演變。

今天?我願意簽署任何恢復 GPT-4o 的請願書。ChatGPT 已經改變了,而且並沒有變得更好。請在評論區分享你的想法。

評論留言