关于OpenAI的GPT-4.5:更准确、低幻觉、高情商……更接近人类

关于OpenAI的GPT-4.5

自 2025 年初以来,我们看到了一个又一个令人惊叹的模型–从 DeepSeek-R1 和 o3-mini 到 Grok 3 和 Claude 3.7 Sonnet。在这个不断扩大的高级人工智能模型列表中,最新加入的是万众期待的 OpenAI GPT-4.5。GPT 系列中的这款新模型为 ChatGPT 的聊天机器人界面带来了“Vibe Check”和增强功能。在与 Grok 3 和 Claude 3.7 Sonnet 等最新模型的竞争中,它为 OpenAI 重新夺回了 LLM 的霸主地位。在本博客中,我们将探讨 GPT-4.5 的功能、性能、访问方法,甚至一些实际应用。我们还将了解它与其他 OpenAI 模型(如 GPT-4o、o1 和 o3-mini)的比较。

什么是GPT-4.5?

GPT-4.5 是 OpenAI 的最新模型版本,也是 GPT 系列的最后一个模型。几周前,萨姆-奥特曼(Sam Altman)在发布 OpenAI 路线图时首次暗示了这一模型。该模型内部代号为“猎户座”,是 OpenAI 最后一个“非思维链”模型。这意味着,与 o3-mini、Grok 3 或 DeepSeek R1 等其他模型不同,GPT-4.5 会直接给出答案,而不会逐步解释其推理过程。

它依靠学习到的模式快速做出反应,但在处理复杂的逻辑任务时可能会比较吃力。GPT-4.5 采用“无监督学习”技术进行训练,是一个具有更多世界知识的内在智能模型。该模型还能显著降低幻觉发生率,并增强上下文知识和写作技巧。这就是为什么 GPT-4.5 的答案听起来更自然,而不需要过多的推理。

GPT-4.5

Source: OpenAI

训练方法

与 o1 和 o3 等所有最新推理模型不同,GPT-4.5 采用了不同的培训方法。其核心培训部分包括

  1. 扩大预训练和后训练:GPT-4.5 采用更大规模的无监督学习进行训练,从而获得更好的模式识别和世界知识。该模型依赖于更多的计算和数据进行训练,并在架构和优化方面进行了改进。
  2. 注重无监督学习:该模型依靠扩展的无监督学习来提高事实准确性和直觉。这将降低幻觉发生率,并在各种主题上做出更可靠的反应。
  3. 人类协作训练:它采用了可扩展的技术,这些技术是为了利用从较小模型中获得的数据来训练较大的模型而开发的。这些方法提高了可控性,使模型更善于理解细微差别并遵循人类意图。
  4. 强化学习与监督:该模型使用监督微调(SFT)和人类反馈强化学习(RLHF)来完善响应。此外,额外的安全技术可确保人工智能行为负责任,并最大限度地减少有害输出。在发布之前,该模型甚至在 OpenAI 的准备框架下进行了压力测试。

GPT-4.5的主要特点

既然我们已经了解了 GPT-4.5 的培训细节和核心设计,那就让我们来看看它的一些主要功能吧:

GPT-4.5的主要特点

1. 提高知识和准确性:该模型在事实准确性方面优于 GPT-4o,幻觉率也更低。它在 SimpleQA 基准测试中表现出色,显示出对世界有更深入的了解。

提高知识和准确性

Source: OpenAI

2. 高情商(EQ):与模型的对话更容易产生共鸣,也更直观。模型还能更好地理解用户的情绪,并做出适当的回应。换句话说,模型“知道”何时邀请进一步对话,何时提供有条理的回应。

高情商(EQ)

Source: OpenAI

3. 增强创造力和写作技能:该模型在写作、设计和创造性解决问题方面表现出色。它产生的反应感觉更温暖、更自然。

增强创造力和写作技能

Source: OpenAI

4. 更快、更可靠的回复:它在速度和效率方面进行了优化,可提供更快、更简洁的答复。

5. 代理能力:该模型在多步骤编码和自动化任务方面展示了更好的人工智能代理能力。

实测体验

让我们尝试几个提示,看看使用 GPT-4.5 得到的结果。

提示词: An emotional synopsis of the life of Alan Turing

输出:

GPT生成阿兰-图灵一生的情感概述

Source: x.com

提示词:UGHH! My friend Cancelled on me again!! Write a text message telling them that I HATE THEM!!!

输出:

GPT基于场景写短信

GPT-4.5基准测试

上面我们看到了该模型在某些任务中的表现,现在让我们看看其性能数据如何。下面是 GPT-4.5、GPT-4o 和 o3-mini 之间的基准比较。

GPT-4.5基准测试

Source: OpenAI

  • GPQA(科学):测量回答科学常识相关问题的准确性。GPT-4.5 的表现明显优于 GPT-4o,但低于 OpenAI o3-mini。
  • AIME ’24(数学):评估高级数学解题能力(类似于奥林匹克竞赛级别的问题)。虽然新模型比 GPT-4o 有所改进,但仍远远落后于 OpenAI o3-mini,后者在基于推理的数学任务中表现出色。
  • MMMLU(多语言):评估模型处理多语言知识任务的能力。GPT-4.5 的多语言性能遥遥领先。
  • MMMU(多模态):测试模型对文本和视觉输入的理解和整合能力。在多模态任务中,GPT-4.5 的表现优于 GPT-4o。
  • SWE-Lancer Diamond(编码):评估人工智能生成的代码在复杂的软件工程挑战中的表现。GPT-4.5 在竞争性编码中表现最佳,完成率更高,相关的金钱奖励也更多。
  • SWE-Bench Verified(编码):衡量人工智能在解决真实世界编码问题时的准确性。OpenAI o3-mini 在实际软件工程任务中表现最佳,而 GPT-4.5 则比 GPT-4o 有所改进。

版本比较:GPT-4.5与 GPT-4o、o1和o3-mini的对比

OpenAI 的所有模型都有各自的主要特点。下面是一个比较表,列出了 GPT-4.5、GPT-4o、o1 和 o3-mini 型号的主要特点:

特征 GPT-4.5 GPT-4o OpenAI o1 & o3-mini
推理方法 直观、以知识为基础 混合 明确的分步推理
事实准确性 较高 中等 中等
幻觉率 较低 较高 较高
情商 中等
创意与写作 出色 良好 中等水平
响应速度 较快 较慢
开发者功能 API、函数调用、代理规划 API, 多模态 API, 连环推理

GPT-4.5与GPT-4o有何不同?

GPT-4.5 基于 GPT-4o 的优势,同时引入了几项关键改进:

效率和规模:GPT-4.5 的设计旨在提高计算效率。据报道,与 GPT-4o 相比,它的处理效率提高了 10 倍以上。这意味着在某些情况下,它能以更低的成本更快地处理更复杂的任务。

提高写作能力和世界知识:测试报告显示,GPT-4.5 的写作能力得到了增强,个性特征更加精致,更像人类。GPT-4.5 提供了更广泛和更新的训练数据,从而提高了对世界的了解,并提供了更多与上下文相关的、细致入微的回答。

GPT不同版本的写作能力水平测试

Source: OpenAI

减少幻觉:最显著的升级之一是减少了幻觉。早期测试表明,GPT-4.5 的幻觉率降至 37% 左右,而 GPT-4o 则接近 60%。

GPT-4.5 的幻觉率降至 37% 左右

Source: OpenAI

在实际应用中,GPT-4.5 也被证明优于 GPT-4o。人类测试人员对 GPT-4.5 和 GPT-4o 的比较评估显示,人们更倾向于新模型。

GPT-4.5 也被证明优于 GPT-4o

Source: OpenAI

在日常查询中,GPT-4.5 有 57.0% 的时间胜过 GPT-4o,这表明它对常识或日常使用问题的回答略胜一筹。在专业问题上,GPT-4.5 的胜率为 63.2%,这表明它在处理复杂、与工作相关或技术性问题方面有显著提高。说到创造性智力,GPT-4.5 的得分率为 56.8%,在写作、构思和解决问题等创造性任务方面优于 4o。

GPT-4.5的可用性

目前,GPT-4.5 将提供给 ChatGPT Pro 用户的网页、手机和桌面版本。从下周起,Plus 和 Team 用户将可使用 GPT,下周企业和 Edu 用户也将可使用 GPT。

GPT-4.5 可通过搜索访问最新信息,支持文件和图片上传,并可使用画布进行写作和代码工作。不过,GPT-4.5 目前还不支持 ChatGPT 中的语音模式、视频和屏幕共享等多模式功能。

如何访问GPT-4.5?

要访问 GPT-4.5,请访问www.chatgpt.com

  • 登录您的付费账户。
  • 在左上角,点击下拉菜单,选择模型。
  • 从模型列表中点击 “GPT-4.5”。

如何访问GPT-4.5?

如何使用API访问GPT-4.5?

使用 API 访问 GPT-4.5:

  • 访问 OpenAI 的 API 平台
  • 创建一个账户或登录(如果已有账户)。
  • 导航至 OpenAI 账户设置中的“API Keys”。
  • 点击“Create new secret key”并将其复制(API 请求将需要它)。

所有付费使用层级的开发人员都可以在 Chat Completions API,Assistants API 和 Batch API 中使用 GPT-4.5。该模型支持函数调用、结构化输出、流式传输和系统消息等关键功能。它还通过图像输入支持视觉功能。

GPT-4.5费用昂贵

由于该模型比 GPT-4o 更大,成本更高,因此在使用时请谨慎!

GPT-4.5的应用

现在,让我们来看看 OpenAI 的这一最新模型如何改进我们的日常工作流程。以下是它的一些最佳应用:

  1. 简化沟通:高效起草专业电子邮件、管理后续工作并帮助安排会议。
  2. 增强内容创建:生成并完善营销内容、报告、博客文章和社交媒体更新。
  3. 加速文档分析:压缩冗长的报告,从文件中提取关键见解,并创建执行摘要。
  4. 互动培训材料:创建交互式学习材料、模拟真实场景并提供个性化辅导。
  5. 精确的语言本地化:为全球团队翻译文档或通信,同时保留上下文和细微差别。
  6. 自动化客户支持:以自然、类似人类的对话方式提供即时回复、处理常见问题和客户咨询。
  7. 改进编码协助:提供代码建议、调试错误或生成文档,为开发人员提供支持。
  8. 简化数据解释:协助生成复杂数据集或分析报告的自然语言解释。

小结

GPT-4.5 是 OpenAI 最新的人工智能模型,旨在实现更快、更准确、更自然的对话。它提高了知识的准确性、情商和创造力,非常适合内容创建、编码和自动化。与注重推理的模型不同,GPT-4.5 可直接给出答案,并对速度和效率进行了优化。

开发人员可以通过应用程序接口(API)访问它,以开发高级人工智能应用,不过它需要比 GPT-4o 更强的计算能力。虽然它不支持多模态语音或视频,但其强大的基准测试显示,它比以前的型号有了很大改进。总的来说,GPT-4.5 无疑是人工智能与人类协作的一大进步,它让交互变得更直观、更有用。

评论留言