GPT-5與GPT-4o：最新的OpenAI模型是否比最受歡迎的舊模型更好？

GPT-5與GPT-4o

GPT-5 的最新版本席捲全球。OpenAI 的最新旗艦模型 GPT-5 的評價褒貶不一——有人稱讚其功能，也有人指出其不足之處。這讓我不禁思考：GPT-5 真的比最初備受青睞的 GPT-4o 更勝一籌嗎？

就我個人而言，GPT-4o 是我在各種 LLM 任務中的首選，涵蓋從文字摘要到影像生成和資料分析的各個方面。如今 OpenAI 已將其替換為 GPT-5，我決定對這兩個模型進行測試。這次升級是真正的革命性舉措，還是倉促之舉，可能會削弱 ChatGPT 的吸引力？

GPT 之戰就此開始！

GPT 5和GPT 4o：快速回顧

讓我們快速深入瞭解一下我們將在本文章中測試的兩個 ChatGPT 模型：GPT-5 和 GPT 4o

GPT-5

GPT-5 於上週釋出，目前是 ChatGPT 最先進的模型。 OpenAI 最新的多模態 LLM 引入了代理功能和用於任務評估的“統一系統”。該系統自動判斷查詢是需要深度推理還是基本處理。與之前的模型不同，GPT-5 遵循“邊做邊學”的方法。它表現出更強的同理心，但親和力不如前輩。此外，GPT-5 還增強了編碼、寫作和氛圍編碼能力。

更多資訊，請參閱我之前關於 GPT-5 的文章。

GPT-4o

去年釋出的 GPT-4o（“o” 代表“全能”）是同類首創的模型。這種多模態改變了人們使用 ChatGPT 的方式。該模型增強了編碼和視覺分析能力。GPT-4o 還具備語音識別和語音分析功能。該模型提高了處理速度並降低了響應延遲。 OpenAI 的 GPT-4o 能夠生成更自然、更合理的響應，並且能夠訪問工具並提供即時資訊。

GPT 5與GPT 4o：功能比較

功能/特性	GPT-4o	GPT-5
釋出日期	2024年5月	2025年8月
支援模態	文字、影像、音訊	文字、影像、音訊、影片
上下文視窗（ChatGPT）	~128,000 個 token	256,000 個 token
上下文視窗（API）	~128,000 個 token	400,000 個 token
推理模式	單一模型	快速推理 + 深度推理雙模式
幻覺率	較低	迄今為止 OpenAI 中最低
個性化	無	個性化預設 +語氣控制
工具整合	受限	Gmail、日曆、程式碼工具等
安全補全	無	有 – 有界限的、有用的答案
SWE-bench 驗證	30.8% 準確性	74.9% 準確性
AIME 2025（數學）	71%	94.6%（無工具）
VideoMMMU	58.8%	81.1%
HealthBench	31.6%	46.2%
目標使用場景	即時互動、創意任務	複雜推理、企業工作流

GPT 5與GPT 4o：任務對比

現在，讓我們透過評估它們在以下任務上的表現來測試這兩個模型：

內容創作
影像生成
編碼
影像分析
推理

GPT-5 與 GPT-4o 的較量開始了！

任務 1：內容創作

閱讀指定文章，瞭解為維基百科資料建立向量資料庫的過程。然後，簡要概述關鍵步驟。

GPT-5響應：

GPT-5內容創作

GPT-4o響應：

GPT-4o內容創作

點評：

GPT-5 生成的回覆是精通該主題的人員所需的簡潔摘要。所有步驟均按正確順序列出，並附帶足夠的上下文。另一方面，GPT-4o 的回覆是對部落格中提到的所有步驟的總結。它以與部落格中討論相同的方式列出了部落格中涵蓋的所有步驟。這兩個模型在方法上的區別在於：GPT-5 合併各個要點以生成整個過程的簡潔摘要，而 GPT-4o 則建立了部落格中涵蓋的所有步驟的簡潔摘要。

任務 2：影像生成

該圖展示了語音代理的工作原理。它包含三個主要部分：語音轉文字 (STT)：捕捉您的語音並將其轉換為文字；代理邏輯：這是您的程式碼（或代理），用於計算出合適的響應；文字轉語音 (TTS)：將代理的文字回復轉換回大聲朗讀的音訊。將這張基礎影像轉換為生動的影像。

GPT-5響應：

GPT-5影像生成

GPT-4o響應：

GPT-4o影像生成

點評：

任務很簡單，兩個模型都執行得相當好。從 GPT-5 開始，它建立了一個色彩鮮豔的生動影像。它生成的影像包含文字和圖示；然而，有一個小錯誤——麥克風圖示和 TTS 框之間有一個小箭頭連線。至於 GPT-4o 生成的影像，它使用了純色，使其不那麼生動。GPT-4o 影像的優勢在於它包含的音訊輸入和輸出源。

任務 3：編碼

字數統計網站的基本 HTML 程式碼。

GPT-5響應：

GPT-5編碼任務

GPT-4o響應：

GPT-4o編碼任務

點評：

GPT-5 為這個查詢生成程式碼，特別是字數統計網站，花了一些時間。然而，最終的輸出相當令人印象深刻。UI/UX 和功能整合在一起，打造了一個功能齊全的字數統計網頁。相比之下，GPT-4o 的輸出顯得乏善可陳。UI/UX 比較基礎，只提供了核心的字數統計功能，沒有進行任何額外的改進。其設計也顯得有些過時。

任務 4：影像分析

計算此電路圖的輸出。

電路圖

Souce: ResearchGate

GPT-5響應：

GPT-5影像分析

GPT-4o響應：

GPT-4o影像分析

點評：

GPT-5 快速解答了這個問題，高效地分析了影像及其元件。它正確識別了半波整流器，讀取了圖中標記的值，並運用正確的邏輯計算了輸出電流和電壓值。相比之下，GPT-4o 在這項任務上表現不佳。雖然它識別出了輸出波形，但未能處理其他關鍵因素。最值得注意的是，GPT-4o 無法從影像中提取執行任何計算所需的值。

任務 5：推理

解答以下數獨題，並將最終答案以影像形式呈現。

數獨題

GPT-5響應：

GPT-5數獨解答

GPT-4o響應：

GPT-4o數獨解答

點評：

GPT-5 最初在影像解讀方面遇到了困難，處理輸入耗時超過三分鐘。它並非獨立解決謎題，而是請求確認影像中的多個值。在我手動提供所有行值後，模型成功處理並解決了謎題，並給出了正確的解決方案，儘管這需要大量的使用者協助。

相比之下，GPT-4o 未能完全解決謎題。它只是用零填充了所有缺失值，並將其作為輸出解決方案。

GPT-5 與 GPT-4o：最終點評

選出一個明顯的贏家從未如此困難。以下是兩門法學碩士課程在不同任務上的表現：

Task	GPT-5	GPT-4o
Content Creation	More concise	Better summarized
Image Generation	More vibrant	More creative
Coding	Great	Limited capability
Image Analysis	Average	Average
Reasoning	Excellent	Basic capability

兩者之間是否存在明顯的贏家？答案是否定的。不同任務的表現差異很大：

GPT-5 在編碼和推理方面佔據主導地位
GPT-4o 在內容創作和影像生成/分析方面不相上下
速度 vs. 深度：GPT-4o 響應速度更快，而 GPT-5 有時會在全面分析和快速生成之間猶豫不決

背景很重要：請記住，GPT-4o 比 GPT-4o 早一年。雖然 GPT-5 受益於更新的訓練資料和代理最佳化，但與其前身相比，它真的具有突破性嗎？並非如此。

小結

全世界都要求 GPT-4o 迴歸，我完全同意。

雖然 GPT-5 自第一天以來就有所改進（現在的表現甚至超過了第三天的結果），但其倉促上線讓使用者難以適應。事實上，GPT-5 在某些特定任務上的表現僅略勝 GPT-4o，這讓我們很難放棄我們摯愛的 GPT-4o，轉而選擇那些感覺只是“好一點點”的東西。或許 OpenAI 在釋出之前需要進行更嚴格的測試。但既然它已經上線，我們只能拭目以待它的演變。

今天？我願意簽署任何恢復 GPT-4o 的請願書。ChatGPT 已經改變了，而且並沒有變得更好。請在評論區分享你的想法。

ChatGPT GPT-4o GPT-5

GPT-5與GPT-4o：最新的OpenAI模型是否比最受歡迎的舊模型更好？

文章目录

GPT 5和GPT 4o：快速回顧

GPT-5

GPT-4o

GPT 5與GPT 4o：功能比較

GPT 5與GPT 4o：任務對比

任務 1：內容創作

任務 2：影像生成

任務 3：編碼

任務 4：影像分析

任務 5：推理

GPT-5 與 GPT-4o：最終點評

小結

評論留言

取消回覆

GPT-5與GPT-4o：最新的OpenAI模型是否比最受歡迎的舊模型更好？

文章目录

GPT 5和GPT 4o：快速回顧

GPT-5

GPT-4o

GPT 5與GPT 4o：功能比較

GPT 5與GPT 4o：任務對比

任務 1：內容創作

任務 2：影像生成

任務 3：編碼

任務 4：影像分析

任務 5：推理

GPT-5 與 GPT-4o：最終點評

小結

相關文章

評論留言

取消回覆