GPT-5与GPT-4o：最新的OpenAI模型是否比最受欢迎的旧模型更好？

GPT-5与GPT-4o

GPT-5 的最新版本席卷全球。OpenAI 的最新旗舰模型 GPT-5 的评价褒贬不一——有人称赞其功能，也有人指出其不足之处。这让我不禁思考：GPT-5 真的比最初备受青睐的 GPT-4o 更胜一筹吗？

就我个人而言，GPT-4o 是我在各种 LLM 任务中的首选，涵盖从文本摘要到图像生成和数据分析的各个方面。如今 OpenAI 已将其替换为 GPT-5，我决定对这两个模型进行测试。这次升级是真正的革命性举措，还是仓促之举，可能会削弱 ChatGPT 的吸引力？

GPT 之战就此开始！

GPT 5和GPT 4o：快速回顾

让我们快速深入了解一下我们将在本文章中测试的两个 ChatGPT 模型：GPT-5 和 GPT 4o

GPT-5

GPT-5 于上周发布，目前是 ChatGPT 最先进的模型。 OpenAI 最新的多模态 LLM 引入了代理功能和用于任务评估的“统一系统”。该系统自动判断查询是需要深度推理还是基本处理。与之前的模型不同，GPT-5 遵循“边做边学”的方法。它表现出更强的同理心，但亲和力不如前辈。此外，GPT-5 还增强了编码、写作和氛围编码能力。

更多信息，请参阅我之前关于 GPT-5 的文章。

GPT-4o

去年发布的 GPT-4o（“o” 代表“全能”）是同类首创的模型。这种多模态改变了人们使用 ChatGPT 的方式。该模型增强了编码和视觉分析能力。GPT-4o 还具备语音识别和语音分析功能。该模型提高了处理速度并降低了响应延迟。 OpenAI 的 GPT-4o 能够生成更自然、更合理的响应，并且能够访问工具并提供实时信息。

GPT 5与GPT 4o：功能比较

功能/特性	GPT-4o	GPT-5
发布日期	2024年5月	2025年8月
支持模态	文本、图像、音频	文本、图像、音频、视频
上下文窗口（ChatGPT）	~128,000 个 token	256,000 个 token
上下文窗口（API）	~128,000 个 token	400,000 个 token
推理模式	单一模型	快速推理 + 深度推理双模式
幻觉率	较低	迄今为止 OpenAI 中最低
个性化	无	个性化预设 +语气控制
工具集成	受限	Gmail、日历、代码工具等
安全补全	无	有 – 有界限的、有用的答案
SWE-bench 验证	30.8% 准确性	74.9% 准确性
AIME 2025（数学）	71%	94.6%（无工具）
VideoMMMU	58.8%	81.1%
HealthBench	31.6%	46.2%
目标使用场景	实时交互、创意任务	复杂推理、企业工作流

GPT 5与GPT 4o：任务对比

现在，让我们通过评估它们在以下任务上的表现来测试这两个模型：

内容创作
图像生成
编码
图像分析
推理

GPT-5 与 GPT-4o 的较量开始了！

任务 1：内容创作

阅读指定文章，了解为维基百科数据创建矢量数据库的过程。然后，简要概述关键步骤。

GPT-5响应：

GPT-5内容创作

GPT-4o响应：

GPT-4o内容创作

点评：

GPT-5 生成的回复是精通该主题的人员所需的简洁摘要。所有步骤均按正确顺序列出，并附带足够的上下文。另一方面，GPT-4o 的回复是对博客中提到的所有步骤的总结。它以与博客中讨论相同的方式列出了博客中涵盖的所有步骤。这两个模型在方法上的区别在于：GPT-5 合并各个要点以生成整个过程的简洁摘要，而 GPT-4o 则创建了博客中涵盖的所有步骤的简洁摘要。

任务 2：图像生成

该图展示了语音代理的工作原理。它包含三个主要部分：语音转文本 (STT)：捕捉您的语音并将其转换为文本；代理逻辑：这是您的代码（或代理），用于计算出合适的响应；文本转语音 (TTS)：将代理的文本回复转换回大声朗读的音频。将这张基础图像转换为生动的图像。

GPT-5响应：

GPT-5图像生成

GPT-4o响应：

GPT-4o图像生成

点评：

任务很简单，两个模型都执行得相当好。从 GPT-5 开始，它创建了一个色彩鲜艳的生动图像。它生成的图像包含文本和图标；然而，有一个小错误——麦克风图标和 TTS 框之间有一个小箭头连接。至于 GPT-4o 生成的图像，它使用了纯色，使其不那么生动。GPT-4o 图像的优势在于它包含的音频输入和输出源。

任务 3：编码

字数统计网站的基本 HTML 代码。

GPT-5响应：

GPT-5编码任务

GPT-4o响应：

GPT-4o编码任务

点评：

GPT-5 为这个查询生成代码，特别是字数统计网站，花了一些时间。然而，最终的输出相当令人印象深刻。UI/UX 和功能整合在一起，打造了一个功能齐全的字数统计网页。相比之下，GPT-4o 的输出显得乏善可陈。UI/UX 比较基础，只提供了核心的字数统计功能，没有进行任何额外的改进。其设计也显得有些过时。

任务 4：图像分析

计算此电路图的输出。

电路图

Souce: ResearchGate

GPT-5响应：

GPT-5图像分析

GPT-4o响应：

GPT-4o图像分析

点评：

GPT-5 快速解答了这个问题，高效地分析了图像及其组件。它正确识别了半波整流器，读取了图中标记的值，并运用正确的逻辑计算了输出电流和电压值。相比之下，GPT-4o 在这项任务上表现不佳。虽然它识别出了输出波形，但未能处理其他关键因素。最值得注意的是，GPT-4o 无法从图像中提取执行任何计算所需的值。

任务 5：推理

解答以下数独题，并将最终答案以图像形式呈现。

数独题

GPT-5响应：

GPT-5数独解答

GPT-4o响应：

GPT-4o数独解答

点评：

GPT-5 最初在图像解读方面遇到了困难，处理输入耗时超过三分钟。它并非独立解决谜题，而是请求确认图像中的多个值。在我手动提供所有行值后，模型成功处理并解决了谜题，并给出了正确的解决方案，尽管这需要大量的用户协助。

相比之下，GPT-4o 未能完全解决谜题。它只是用零填充了所有缺失值，并将其作为输出解决方案。

GPT-5 与 GPT-4o：最终点评

选出一个明显的赢家从未如此困难。以下是两门法学硕士课程在不同任务上的表现：

Task	GPT-5	GPT-4o
Content Creation	More concise	Better summarized
Image Generation	More vibrant	More creative
Coding	Great	Limited capability
Image Analysis	Average	Average
Reasoning	Excellent	Basic capability

两者之间是否存在明显的赢家？答案是否定的。不同任务的表现差异很大：

GPT-5 在编码和推理方面占据主导地位
GPT-4o 在内容创作和图像生成/分析方面不相上下
速度 vs. 深度：GPT-4o 响应速度更快，而 GPT-5 有时会在全面分析和快速生成之间犹豫不决

背景很重要：请记住，GPT-4o 比 GPT-4o 早一年。虽然 GPT-5 受益于更新的训练数据和代理优化，但与其前身相比，它真的具有突破性吗？并非如此。

小结

全世界都要求 GPT-4o 回归，我完全同意。

虽然 GPT-5 自第一天以来就有所改进（现在的表现甚至超过了第三天的结果），但其仓促上线让用户难以适应。事实上，GPT-5 在某些特定任务上的表现仅略胜 GPT-4o，这让我们很难放弃我们挚爱的 GPT-4o，转而选择那些感觉只是“好一点点”的东西。或许 OpenAI 在发布之前需要进行更严格的测试。但既然它已经上线，我们只能拭目以待它的演变。

今天？我愿意签署任何恢复 GPT-4o 的请愿书。ChatGPT 已经改变了，而且并没有变得更好。请在评论区分享你的想法。

ChatGPT GPT-4o GPT-5

GPT-5与GPT-4o：最新的OpenAI模型是否比最受欢迎的旧模型更好？

文章目录

GPT 5和GPT 4o：快速回顾

GPT-5

GPT-4o

GPT 5与GPT 4o：功能比较

GPT 5与GPT 4o：任务对比

任务 1：内容创作

任务 2：图像生成

任务 3：编码

任务 4：图像分析

任务 5：推理

GPT-5 与 GPT-4o：最终点评

小结

评论留言

取消回复

GPT-5与GPT-4o：最新的OpenAI模型是否比最受欢迎的旧模型更好？

文章目录

GPT 5和GPT 4o：快速回顾

GPT-5

GPT-4o

GPT 5与GPT 4o：功能比较

GPT 5与GPT 4o：任务对比

任务 1：内容创作

任务 2：图像生成

任务 3：编码

任务 4：图像分析

任务 5：推理

GPT-5 与 GPT-4o：最终点评

小结

相关文章

评论留言

取消回复