
GPT-5 的最新版本席卷全球。OpenAI 的最新旗舰模型 GPT-5 的评价褒贬不一——有人称赞其功能,也有人指出其不足之处。这让我不禁思考:GPT-5 真的比最初备受青睐的 GPT-4o 更胜一筹吗?
就我个人而言,GPT-4o 是我在各种 LLM 任务中的首选,涵盖从文本摘要到图像生成和数据分析的各个方面。如今 OpenAI 已将其替换为 GPT-5,我决定对这两个模型进行测试。这次升级是真正的革命性举措,还是仓促之举,可能会削弱 ChatGPT 的吸引力?
GPT 之战就此开始!
GPT 5和GPT 4o:快速回顾
让我们快速深入了解一下我们将在本文章中测试的两个 ChatGPT 模型:GPT-5 和 GPT 4o
GPT-5
GPT-5 于上周发布,目前是 ChatGPT 最先进的模型。 OpenAI 最新的多模态 LLM 引入了代理功能和用于任务评估的“统一系统”。该系统自动判断查询是需要深度推理还是基本处理。与之前的模型不同,GPT-5 遵循“边做边学”的方法。它表现出更强的同理心,但亲和力不如前辈。此外,GPT-5 还增强了编码、写作和氛围编码能力。
更多信息,请参阅我之前关于 GPT-5 的文章。
GPT-4o
去年发布的 GPT-4o(“o” 代表“全能”)是同类首创的模型。这种多模态改变了人们使用 ChatGPT 的方式。该模型增强了编码和视觉分析能力。GPT-4o 还具备语音识别和语音分析功能。该模型提高了处理速度并降低了响应延迟。 OpenAI 的 GPT-4o 能够生成更自然、更合理的响应,并且能够访问工具并提供实时信息。
GPT 5与GPT 4o:功能比较
| 功能/特性 | GPT-4o | GPT-5 |
|---|---|---|
| 发布日期 | 2024年5月 | 2025年8月 |
| 支持模态 | 文本、图像、音频 | 文本、图像、音频、视频 |
| 上下文窗口(ChatGPT) | ~128,000 个 token | 256,000 个 token |
| 上下文窗口(API) | ~128,000 个 token | 400,000 个 token |
| 推理模式 | 单一模型 | 快速推理 + 深度推理双模式 |
| 幻觉率 | 较低 | 迄今为止 OpenAI 中最低 |
| 个性化 | 无 | 个性化预设 +语气控制 |
| 工具集成 | 受限 | Gmail、日历、代码工具等 |
| 安全补全 | 无 | 有 – 有界限的、有用的答案 |
| SWE-bench 验证 | 30.8% 准确性 | 74.9% 准确性 |
| AIME 2025(数学) | 71% | 94.6%(无工具) |
| VideoMMMU | 58.8% | 81.1% |
| HealthBench | 31.6% | 46.2% |
| 目标使用场景 | 实时交互、创意任务 | 复杂推理、企业工作流 |
GPT 5与GPT 4o:任务对比
现在,让我们通过评估它们在以下任务上的表现来测试这两个模型:
- 内容创作
- 图像生成
- 编码
- 图像分析
- 推理
GPT-5 与 GPT-4o 的较量开始了!
任务 1:内容创作
阅读指定文章,了解为维基百科数据创建矢量数据库的过程。然后,简要概述关键步骤。
GPT-5响应:

GPT-4o响应:

点评:
GPT-5 生成的回复是精通该主题的人员所需的简洁摘要。所有步骤均按正确顺序列出,并附带足够的上下文。另一方面,GPT-4o 的回复是对博客中提到的所有步骤的总结。它以与博客中讨论相同的方式列出了博客中涵盖的所有步骤。这两个模型在方法上的区别在于:GPT-5 合并各个要点以生成整个过程的简洁摘要,而 GPT-4o 则创建了博客中涵盖的所有步骤的简洁摘要。
任务 2:图像生成
该图展示了语音代理的工作原理。它包含三个主要部分:语音转文本 (STT):捕捉您的语音并将其转换为文本;代理逻辑:这是您的代码(或代理),用于计算出合适的响应;文本转语音 (TTS):将代理的文本回复转换回大声朗读的音频。将这张基础图像转换为生动的图像。
GPT-5响应:

GPT-4o响应:

点评:
任务很简单,两个模型都执行得相当好。从 GPT-5 开始,它创建了一个色彩鲜艳的生动图像。它生成的图像包含文本和图标;然而,有一个小错误——麦克风图标和 TTS 框之间有一个小箭头连接。至于 GPT-4o 生成的图像,它使用了纯色,使其不那么生动。GPT-4o 图像的优势在于它包含的音频输入和输出源。
任务 3:编码
字数统计网站的基本 HTML 代码。
GPT-5响应:

GPT-4o响应:

点评:
GPT-5 为这个查询生成代码,特别是字数统计网站,花了一些时间。然而,最终的输出相当令人印象深刻。UI/UX 和功能整合在一起,打造了一个功能齐全的字数统计网页。相比之下,GPT-4o 的输出显得乏善可陈。UI/UX 比较基础,只提供了核心的字数统计功能,没有进行任何额外的改进。其设计也显得有些过时。
任务 4:图像分析
计算此电路图的输出。

Souce: ResearchGate
GPT-5响应:

GPT-4o响应:

点评:
GPT-5 快速解答了这个问题,高效地分析了图像及其组件。它正确识别了半波整流器,读取了图中标记的值,并运用正确的逻辑计算了输出电流和电压值。相比之下,GPT-4o 在这项任务上表现不佳。虽然它识别出了输出波形,但未能处理其他关键因素。最值得注意的是,GPT-4o 无法从图像中提取执行任何计算所需的值。
任务 5:推理
解答以下数独题,并将最终答案以图像形式呈现。

GPT-5响应:

GPT-4o响应:

点评:
GPT-5 最初在图像解读方面遇到了困难,处理输入耗时超过三分钟。它并非独立解决谜题,而是请求确认图像中的多个值。在我手动提供所有行值后,模型成功处理并解决了谜题,并给出了正确的解决方案,尽管这需要大量的用户协助。
相比之下,GPT-4o 未能完全解决谜题。它只是用零填充了所有缺失值,并将其作为输出解决方案。
GPT-5 与 GPT-4o:最终点评
选出一个明显的赢家从未如此困难。以下是两门法学硕士课程在不同任务上的表现:
| Task | GPT-5 | GPT-4o |
|---|---|---|
| Content Creation | More concise | Better summarized |
| Image Generation | More vibrant | More creative |
| Coding | Great | Limited capability |
| Image Analysis | Average | Average |
| Reasoning | Excellent | Basic capability |
两者之间是否存在明显的赢家?答案是否定的。不同任务的表现差异很大:
- GPT-5 在编码和推理方面占据主导地位
- GPT-4o 在内容创作和图像生成/分析方面不相上下
- 速度 vs. 深度:GPT-4o 响应速度更快,而 GPT-5 有时会在全面分析和快速生成之间犹豫不决
背景很重要:请记住,GPT-4o 比 GPT-4o 早一年。虽然 GPT-5 受益于更新的训练数据和代理优化,但与其前身相比,它真的具有突破性吗?并非如此。
小结
全世界都要求 GPT-4o 回归,我完全同意。
虽然 GPT-5 自第一天以来就有所改进(现在的表现甚至超过了第三天的结果),但其仓促上线让用户难以适应。事实上,GPT-5 在某些特定任务上的表现仅略胜 GPT-4o,这让我们很难放弃我们挚爱的 GPT-4o,转而选择那些感觉只是“好一点点”的东西。或许 OpenAI 在发布之前需要进行更严格的测试。但既然它已经上线,我们只能拭目以待它的演变。
今天?我愿意签署任何恢复 GPT-4o 的请愿书。ChatGPT 已经改变了,而且并没有变得更好。请在评论区分享你的想法。


评论留言