GPT-4最强竞争对手？谷歌最新多模态AI模型Gemini AI

在今年 6 月举行的谷歌 I/O 2023 大会上，该公司向我们展示了其能力最强的人工智能模型- Gemini。最后，在2023年底之前，谷歌向公众发布了 Gemini AI 模型。谷歌将其称为 ” Gemini 时代”，因为这是该公司的一个重要里程碑。但是，谷歌 Gemini AI 究竟是什么，它能否取代长期以来的王者——GPT-4？要想知道答案，让我们来详细了解一下 Gemini AI 模型。

什么是 Gemini AI？

Gemini 是谷歌 Deepmind 团队开发的最新、功能最强大的大型语言模型（LLM），该团队是总部位于伦敦的谷歌子公司。它是由谷歌内部人工智能部门开发的 PaLM 2 模型的后续产品。这是我们第一次看到 Deepmind 团队向公众发布成熟的人工智能系统。

值得注意的是，谷歌在 2023 年 4 月合并了 Google Brain 部门和 Deepmind 团队，以开发出一个可以与 OpenAI 最佳模型相抗衡的强大模型。而 Gemini 就是这一共同努力的结晶。

现在我们来讨论一个至关重要的问题：Gemini AI 与 OpenAI 的 GPT-4 或其自己的 PaLM 2 模型有何不同？首先，Gemini 是一个真正的多模态模型。虽然 PaLM 2 支持图像分析，但它依赖于 Google Lens 和语义分析来从上传的图像中推断数据点。从根本上说，这是谷歌为 Bard 提供图像支持的权宜之计。

至于同样是多模态模型的 GPT-4，Gemini AI 在这方面也有所不同。在我们关于即将推出的 GPT-5 模型的详细文章中，我们解释了 GPT-4 并不是一个密集的模型。相反，它基于 “Mixture of Experts” 架构，针对不同的任务将 16 个不同的模型拼接在一起。因此，对于图像分析、图像生成和语音处理等不同任务，它有不同的模型，如 GPT-4 Vision、Dall -E、Whisper 等。

gemini多模态ai示例

图片来源：Google Deepmind

这就是谷歌 Gemini AI 与其他多模态模型的不同之处。Gemini 是一个 “原生多模态人工智能模型“，它从一开始就被设计成一个多模态模型，包括文本、图像、音频、视频和代码，所有这些都训练在一起，形成一个强大的人工智能系统。

由于 Gemini 本身的多模态能力，它可以同时无缝处理不同模态的信息。

如果你想知道，这对你这样的最终用户来说有什么不同？拥有原生多模态人工智能系统有很多优势，我们将在下文中详细讨论。但在此之前，我们先来了解一下 Gemini 的多模态功能。

Gemini AI 是真正的多模态模型

要了解 Gemini AI 与其他多模态模型的不同之处，让我们以音频处理为例。OpenAI 的 Whisper v3 是当今流行的语音识别模型之一。它可以识别多语言语音、识别语言、转录语音并进行翻译。但是，它无法识别语音的语气、语调和细微差别，例如发音。

有人在说 “你好” 的时候可能很悲伤，也可能很高兴，但 Whisper 无法解读说话者的情绪，因为它只是在转录音频。但另一方面，Gemini 可以端对端地处理原始音频信号，捕捉细微差别和情绪。谷歌的人工智能模型可以区分不同语言的发音，并在转录时加上适当的注释。这使得 Gemini AI 成为一个能力更强的多模态系统。

gemini ai 多模式能力

图片来源：Google Deepmind

除此之外，Gemini 还能分析和生成图像（可能内置了 Imagen 2）。在视觉分析方面，Gemini 表现出色。它可以找到图像之间的联系，从剧照中猜测电影，将图像转化为代码，了解周围环境，评估手写文本，解释数学和物理问题中的推理等等。即使谷歌伪造了 “Gemini AI” 人工智能演示，这也可能是真的。

别忘了，它还能处理和理解视频。在编码方面，Gemini AI 支持大多数编程语言，包括 Python、Java、C++、Go 等流行语言。在解决复杂的编码问题方面，它要比 PaLM 2 强得多。Gemini 第一次就能解决约 75% 的 Python 函数，而 PaLM 2 只能解决 45%。如果用户回馈一些调试输入，解决率还会超过 90%。

除此之外，谷歌还为高级代码生成创建了一个专门版本的 Gemini，并将其命名为 AlphaCode 2。它擅长竞技编程，能解决涉及复杂数学和计算机科学理论的令人难以置信的难题。与人类选手相比，AlphaCode 2 在编程竞赛中击败了 85% 的参赛者。

总之，谷歌 Gemini AI 是一个出色的多模态人工智能系统，可用于多种使用案例，包括文本生成/推理、图像分析、代码生成、音频处理和视频理解。

Gemini AI 有三种版本

谷歌公布了 Gemini AI 的三种型号：Ultra、Pro 和 Nano，但没有透露它们的参数大小。Gemini Ultra 最接近 GPT-4 模型，是谷歌最大、功能最强的模型，具有全套多模态功能。据该公司称，Ultra 模型最适合高度复杂和极具挑战性的任务。

Gemini AI 有三种版本

图片来源：Google

不过，Gemini Ultra 型号尚未发布。该公司表示，Ultra 将通过严格的信任和安全检查，明年初将面向开发者和企业客户推出。

此外，谷歌还将在明年初推出 Bard Advanced，供消费者体验具有完整多模态功能的 Gemini Ultra。用户还可能获得 AlphaCode 2 的访问权限。

由 Gemini Pro 支持的 Google Bard

至于 Gemini Pro，它已经在谷歌 Bard（ChatGPT 替代）上上线，从 PaLM 2 到 Gemini Pro 的过渡将在 12 月底完成。

Pro 模型专为广泛的任务而设计，它在多项基准测试中击败了 OpenAI 的 GPT-3.5 模型（详情见下文）。谷歌还发布了 Gemini Pro 模型的 API，包括文本和视觉模型。

目前，Gemini Pro 模型仅在全球 170 多个国家提供英语版本。此外，Gemini Pro 的多模态支持和新的语言支持将很快添加到 Bard 中。此外，谷歌表示 Gemini 将在未来几个月内集成到更多的谷歌产品中，包括搜索、Chrome 浏览器、广告和 Duet AI。

最后，最小的 Gemini Nano 型号已经搭载在 Pixel 8 Pro 上，并将添加到其他 Pixel 设备中。Nano 模型专为智能手机上的设备、私人和个性化人工智能体验而设计。

从 WhatsApp、Line 和 KakaoTalk 开始，它将为录音应用中的摘要和 Gboard 中的智能回复等功能提供支持。明年初将增加对其他消息应用的支持。

Gemini AI 运行高效

说到原生多模态人工智能系统的优势，首先，它可以更快、更高效地运行模型，并将产品扩展到数百万用户。我们已经知道，OpenAI 的 GPT-4 运行速度相对较慢，最近，该公司暂停了 ChatGPT Plus 订阅，以满足硬件要求。运行各种纯文本、纯视觉、纯音频模型，并以次优方式将它们组合在一起，会抬高整个基础设施的成本。归根结底，它妨碍了用户体验。

谷歌在其博文中表示，Gemini 正在其最高效的 TPU 系统（v4 和 v5e）上运行，该系统速度更快，可扩展性更强。与较早的 PaLM 2 模型相比，在人工智能加速器上运行 Gemini 模型的速度更快，成本更低。因此，拥有一个原生多模态模型具有众多优势，它使谷歌能够为数百万用户提供服务，同时保持较低的计算成本。

Gemini Ultra 与 GPT-4：基准测试

现在，让我们来看看一些基准测试数据，看看谷歌发布的 Gemini 是否成功超越了 OpenAI。根据谷歌的数据，在通常用于评估 LLM 性能的 32 项基准测试中，Gemini Ultra 在 30 项测试中均优于 GPT-4 型号。谷歌吹捧 Gemini Ultra 在流行的 MMLU 基准测试中获得了 90.04% 的最高分，而 GPT-4 的得分率为 86.4%。在 MMLU 基准测试中，它的得分甚至超过了人类专家（89.8%）。

谷歌gemini基准分数

图片来源：Google Deepmind

关于 Gemini Ultra 的 MMLU 基准数据，来自多方面的批评纷至沓来。谷歌在使用 CoT@32（Chain-of-Thought，思维链）提示时获得了 90.04% 的准确响应。在标准的 5 次提示下，Gemini Ultra 的得分降至 83.7%，而 GPT-4 的得分则为 86.4%，GPT-4 仍然是 MMLU 测试中得分最高的。

虽然这并没有削弱 Gemini Ultra 的能力，但这意味着需要更好的提示才能让模型做出准确的反应。

在标准的 5-shot 提示下，Gemini Ultra 的得分率降至 83.7%，而 GPT-4 的得分率为 86.4%，GPT-4 仍然是 MMLU 测试中得分最高的。

在其他基准测试中，在 HumanEval（Python 代码生成）中，Gemini Ultra 得分 74.4%，而 GPT-4 得分 67.0%。在用于评估常识推理的 HellaSwag 测试中，Gemini Ultra（87.8%）输给了 GPT-4（95.3%）。在测试具有挑战性的多步骤推理任务的 Big-Bench Hard 基准测试中，Gemini Ultra（83.6%）击败了 GPT-4（83.1%）。

在多模式测试中，Gemini Ultra 几乎在所有方面都战胜了 GPT-4V (Vision)。在 MMMU 测试中，Gemini Ultra 得分为 59.4%，GPT-4V 得分为 56.8%。在自然图像理解（VQAv2 测试）中，Gemini Ultra 得分 77.8%，GPT-4V 得分 77.2%。接着，在自然图像 OCR 测试（TextVQA）中，Gemini Ultra 得分 82.3%，GPT-4V 得分 78%。在文档理解测试（DocVQA）中，Gemini Ultra 得分 90.9%，GPT-4V 得分 88.4%。最后，在信息图理解方面，Gemini Ultra 得分 80.3%，GPT-4V 得分 75.1%。

谷歌多模态模型gemini基准分数

图片来源：Google Deepmind

您可以在 Google Deepmind 发布的研究论文中找到 Gemini Ultra 和 GPT-4 之间的更深入比较。从基准数据中得出的主要结论是，谷歌确实推出了一款有能力与包括 GPT-4 在内的最佳 LLM 相抗衡的模型。在多模态能力方面，谷歌似乎又回来了。

安全检查到位

说到人工智能的安全性，谷歌总是信奉 “大胆而负责” 的格言。谷歌 Deepmind 团队也遵循着同样的原则。谷歌表示，在向公众发布这些模型之前，已经对其进行了内部和外部测试。

它围绕 Gemini AI 模型制定了积极的政策，以检查用户输入和响应中的偏差和毒性。Gemini AI 模型仍然会产生幻觉，但程度要小得多。

谷歌还与 MLCommons 等外部公司合作，对人工智能系统进行评估。谷歌还在为业界建立一个安全人工智能框架（SAIF），以降低人工智能系统的相关风险。该公司目前正在对其强大的 Gemini Ultra 模型进行安全检查，一旦所有检查完成，该模型将于明年初发布。

小结

虽然谷歌被一年前发布的 ChatGPT 打了个措手不及，但现在看来，谷歌终于通过 Gemini 模型赶上了 OpenAI 的步伐。尤其是 Ultra 模型，令人印象深刻，我们已经迫不及待地想对它进行测试了，且不论一些粗略的基准数据。从研究论文中可以看出，它的多模态视觉能力非常出色，编码性能也是一流的。

Gemini AI 模型与我们迄今为止从谷歌看到的模型截然不同。它们更像是从零开始构建的人工智能系统。也就是说，OpenAI 可能会在明年初谷歌发布 Gemini Ultra 模型时推出 GPT-5，这将再次让谷歌与时间赛跑。尽管如此，你如何看待谷歌新的 Gemini AI 模型？请在下面的评论区分享你的想法。

AI模型 Gemini AI 多模态谷歌

GPT-4最强竞争对手？谷歌最新多模态AI模型Gemini AI

文章目录

什么是 Gemini AI？

Gemini AI 是真正的多模态模型

Gemini AI 有三种版本

Gemini AI 运行高效

Gemini Ultra 与 GPT-4：基准测试

安全检查到位

小结

评论留言

取消回复

GPT-4最强竞争对手？谷歌最新多模态AI模型Gemini AI

文章目录

什么是 Gemini AI？

Gemini AI 是真正的多模态模型

Gemini AI 有三种版本

Gemini AI 运行高效

Gemini Ultra 与 GPT-4：基准测试

安全检查到位

小结

相关文章

评论留言

取消回复