GPT-5与GPT-4o:最新的OpenAI模型是否比最受欢迎的旧模型更好?

GPT-5与GPT-4o:最新的OpenAI模型是否比最受欢迎的旧模型更好?

文章目录

  • GPT 5和GPT 4o:快速回顾
  • GPT 5与GPT 4o:功能比较
  • GPT 5与GPT 4o:任务对比
  • 任务 1:内容创作
  • 任务 2:图像生成
  • 任务 3:编码
  • 任务 4:图像分析
  • 任务 5:推理
  • GPT-5 与 GPT-4o:最终点评
  • 小结

GPT-5与GPT-4o

GPT-5 的最新版本席卷全球。OpenAI 的最新旗舰模型 GPT-5 的评价褒贬不一——有人称赞其功能,也有人指出其不足之处。这让我不禁思考:GPT-5 真的比最初备受青睐的 GPT-4o 更胜一筹吗?

就我个人而言,GPT-4o 是我在各种 LLM 任务中的首选,涵盖从文本摘要到图像生成和数据分析的各个方面。如今 OpenAI 已将其替换为 GPT-5,我决定对这两个模型进行测试。这次升级是真正的革命性举措,还是仓促之举,可能会削弱 ChatGPT 的吸引力?

GPT 之战就此开始!

GPT 5和GPT 4o:快速回顾

让我们快速深入了解一下我们将在本文章中测试的两个 ChatGPT 模型:GPT-5 和 GPT 4o

GPT-5

GPT-5 于上周发布,目前是 ChatGPT 最先进的模型。 OpenAI 最新的多模态 LLM 引入了代理功能和用于任务评估的“统一系统”。该系统自动判断查询是需要深度推理还是基本处理。与之前的模型不同,GPT-5 遵循“边做边学”的方法。它表现出更强的同理心,但亲和力不如前辈。此外,GPT-5 还增强了编码、写作和氛围编码能力。

更多信息,请参阅我之前关于 GPT-5 的文章

GPT-4o

去年发布的 GPT-4o(“o” 代表“全能”)是同类首创的模型。这种多模态改变了人们使用 ChatGPT 的方式。该模型增强了编码和视觉分析能力。GPT-4o 还具备语音识别和语音分析功能。该模型提高了处理速度并降低了响应延迟。 OpenAI 的 GPT-4o 能够生成更自然、更合理的响应,并且能够访问工具并提供实时信息。

GPT 5与GPT 4o:功能比较

功能/特性 GPT-4o GPT-5
发布日期 2024年5月 2025年8月
支持模态 文本、图像、音频 文本、图像、音频、视频
上下文窗口(ChatGPT) ~128,000 个 token 256,000 个 token
上下文窗口(API) ~128,000 个 token 400,000 个 token
推理模式 单一模型 快速推理 + 深度推理双模式
幻觉率 较低 迄今为止 OpenAI 中最低
个性化 个性化预设 +语气控制
工具集成 受限 Gmail、日历、代码工具等
安全补全 有 – 有界限的、有用的答案
SWE-bench 验证 30.8% 准确性 74.9% 准确性
AIME 2025(数学) 71% 94.6%(无工具)
VideoMMMU 58.8% 81.1%
HealthBench 31.6% 46.2%
目标使用场景 实时交互、创意任务 复杂推理、企业工作流

GPT 5与GPT 4o:任务对比

现在,让我们通过评估它们在以下任务上的表现来测试这两个模型:

  1. 内容创作
  2. 图像生成
  3. 编码
  4. 图像分析
  5. 推理

GPT-5 与 GPT-4o 的较量开始了!

任务 1:内容创作

阅读指定文章,了解为维基百科数据创建矢量数据库的过程。然后,简要概述关键步骤。

GPT-5响应:

GPT-5内容创作

GPT-4o响应:

GPT-4o内容创作

点评:

GPT-5 生成的回复是精通该主题的人员所需的简洁摘要。所有步骤均按正确顺序列出,并附带足够的上下文。另一方面,GPT-4o 的回复是对博客中提到的所有步骤的总结。它以与博客中讨论相同的方式列出了博客中涵盖的所有步骤。这两个模型在方法上的区别在于:GPT-5 合并各个要点以生成整个过程的简洁摘要,而 GPT-4o 则创建了博客中涵盖的所有步骤的简洁摘要。

任务 2:图像生成

该图展示了语音代理的工作原理。它包含三个主要部分:语音转文本 (STT):捕捉您的语音并将其转换为文本;代理逻辑:这是您的代码(或代理),用于计算出合适的响应;文本转语音 (TTS):将代理的文本回复转换回大声朗读的音频。将这张基础图像转换为生动的图像。

GPT-5响应:

GPT-5图像生成

GPT-4o响应:

GPT-4o图像生成

点评:

任务很简单,两个模型都执行得相当好。从 GPT-5 开始,它创建了一个色彩鲜艳的生动图像。它生成的图像包含文本和图标;然而,有一个小错误——麦克风图标和 TTS 框之间有一个小箭头连接。至于 GPT-4o 生成的图像,它使用了纯色,使其不那么生动。GPT-4o 图像的优势在于它包含的音频输入和输出源。

任务 3:编码

字数统计网站的基本 HTML 代码。

GPT-5响应:

GPT-5编码任务

GPT-4o响应:

GPT-4o编码任务

点评:

GPT-5 为这个查询生成代码,特别是字数统计网站,花了一些时间。然而,最终的输出相当令人印象深刻。UI/UX 和功能整合在一起,打造了一个功能齐全的字数统计网页。相比之下,GPT-4o 的输出显得乏善可陈。UI/UX 比较基础,只提供了核心的字数统计功能,没有进行任何额外的改进。其设计也显得有些过时。

任务 4:图像分析

计算此电路图的输出。

电路图

SouceResearchGate

GPT-5响应:

GPT-5图像分析

GPT-4o响应:

GPT-4o图像分析

点评:

GPT-5 快速解答了这个问题,高效地分析了图像及其组件。它正确识别了半波整流器,读取了图中标记的值,并运用正确的逻辑计算了输出电流和电压值。相比之下,GPT-4o 在这项任务上表现不佳。虽然它识别出了输出波形,但未能处理其他关键因素。最值得注意的是,GPT-4o 无法从图像中提取执行任何计算所需的值。

任务 5:推理

解答以下数独题,并将最终答案以图像形式呈现。

数独题

GPT-5响应:

GPT-5数独解答

GPT-4o响应:

GPT-4o数独解答

点评:

GPT-5 最初在图像解读方面遇到了困难,处理输入耗时超过三分钟。它并非独立解决谜题,而是请求确认图像中的多个值。在我手动提供所有行值后,模型成功处理并解决了谜题,并给出了正确的解决方案,尽管这需要大量的用户协助。

相比之下,GPT-4o 未能完全解决谜题。它只是用零填充了所有缺失值,并将其作为输出解决方案。

GPT-5 与 GPT-4o:最终点评

选出一个明显的赢家从未如此困难。以下是两门法学硕士课程在不同任务上的表现:

Task GPT-5 GPT-4o
Content Creation More concise Better summarized
Image Generation More vibrant More creative
Coding Great Limited capability
Image Analysis Average Average
Reasoning Excellent Basic capability

两者之间是否存在明显的赢家?答案是否定的。不同任务的表现差异很大:

  • GPT-5 在编码和推理方面占据主导地位
  • GPT-4o 在内容创作和图像生成/分析方面不相上下
  • 速度 vs. 深度:GPT-4o 响应速度更快,而 GPT-5 有时会在全面分析和快速生成之间犹豫不决

背景很重要:请记住,GPT-4o 比 GPT-4o 早一年。虽然 GPT-5 受益于更新的训练数据和代理优化,但与其前身相比,它真的具有突破性吗?并非如此。

小结

全世界都要求 GPT-4o 回归,我完全同意。

虽然 GPT-5 自第一天以来就有所改进(现在的表现甚至超过了第三天的结果),但其仓促上线让用户难以适应。事实上,GPT-5 在某些特定任务上的表现仅略胜 GPT-4o,这让我们很难放弃我们挚爱的 GPT-4o,转而选择那些感觉只是“好一点点”的东西。或许 OpenAI 在发布之前需要进行更严格的测试。但既然它已经上线,我们只能拭目以待它的演变。

今天?我愿意签署任何恢复 GPT-4o 的请愿书。ChatGPT 已经改变了,而且并没有变得更好。请在评论区分享你的想法。

评论留言

闪电侠

(工作日 10:00 - 18:30 为您服务)

2025-12-05 16:32:56

您好,无论是售前、售后、意见建议……均可通过联系工单与我们取得联系。

您也可选择聊天工具与我们即时沟通或点击查看:

您的工单我们已经收到,我们将会尽快跟您联系!
取消
选择聊天工具: